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LỜI NÓI ĐẦU 


thập từ những nghiên cứu khoa học, nhưng cũng có thể bắt nguồn từ 

những “thí nghiệm tự nhiên” trong xã hội và đời sống hàng ngày. Khoa 
học thống kê (statistical science) và những phương pháp thống kê giúp chúng 
ta chuyển hoá đữ liệu thô thành thông tin, và với kiến thức chuyên ngành, biến 
thông tin thành trí thức. Do đó, khoa học thống kê đóng một vai trò không thể 
thiếu được trong việc hoán chuyển dữ liệu thành thông tin và tri thức. 


Ƒ®% kê là một bộ môn khoa học về dữ liệu. Dữ liệu có thể được thu 


“Trải với quan điểm của nhiều người xem thống kẻ là một công cụ, trong 
thực tế, các phương pháp phân tích dù đựa vào nến tảng của toán học và xác 
suất, nhưng đó chỉ là phần “kĩ thuật, phấn quan trọng hơn là thiết kế nghiên 
cứu và diễn giải ý nghĩa dữ liệu. Người làm thống kê, do đó, không chỉ là người 
đơn thuần làm phân tích đữ liệu, mà phải là một nhà khoa học, một nhà suy 
nghĩ (thinker) về nghiên cứu khoa học. Chính vì thế, mà khoa học thống kê 
đóng một vai trò cực kì quan trọng, một vai trò không thể thiếu được trong 
các công trình nghiên cứu khoa học, nhất là khoa học thực nghiệm. Có thể nói 
rằng ngày nay, nếu không có thống kê thì các thử nghiệm gen với triệu triệu số 
liệu chỉ là những con số vô hồn, vô nghĩa. 

Một công trình nghiên cứu khoa học, cho đù có tốn kém và quan trọng cỡ 
nào, nếu không được phân tích đúng phương pháp sẽ không có ý nghĩa khoa 
học gì cả. Chính vì thế mà ngày nay, chỉ cần nhìn qua tất cả các tập san nghiên 
cứu khoa học trên thế giới, hấu như bất cứ bài báo y học nào cũng có phần 
“Statistical Analysis” (Phân tích thống kẻ), nơi mà tác giả phải mỏ tả cần thận 
phương pháp phân tích, tính toán như thế nào, và giải thích ngắn gọn tại sao 
sử dụng những phương pháp đó để hàm ý “bảo vệ” hay tăng trọng lượng khoa 
học cho những phát biểu trong bài báo. Các tập san y học có uy tín càng cao 
yêu cầu về phân tích thống kê càng nặng. 
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Một trong những phát triển quan trọng nhất trong khoa học thống kê 
là ứng dụng máy tính cho phân tích và tính toán thống kê. Có thể nói không 
ngoa rằng không có máy tính, khoa học thống kê vẫn chỉ là một khoa học 
buồn tẻ khô khan, với những công thức rắc rối mà thiếu tính ứng dụng vào 
thực tế. Máy tính đã giúp khoa học thống kê làm một cuộc cách mạng lớn nhất 
trong lịch sử của bộ môn: đó là đưa khoa học thống kê vào thực tế, giải quyết 
các vấn để gai góc nhất và góp phần làm phát triển khoa học thực nghiệm. 
Ngày nay, với một máy tính cá nhân, bất cứ ai cũng có thể thực hiện những 
phân tích thống kê phức tạp trong vòng vài giây mà trước đây phải tốn hàng 
tháng trời mới hoàn tất. 


Nhưng nếu máy tính mà không có phần mềm thì máy tính cũng chỉ là 
một đống sắt hay silicon “vô hồn” và vô dụng. Một phần mềm đã, đang và sẽ 
làm cách mạng thống kẻ là R. Phần mềm này được một số nhà nghiên cứu. 
thống kê và khoa học trên thế giới phát triển và hoàn thiện trong khoảng 20 
năm qua để sử dụng cho việc học tập, giảng dạy và nghiên cứu. Cuốn sách này. 
sẽ giới thiệu bạn đọc cách sử dụng R cho phân tích thống kê và đồ thị. 

R là một ngôn ngữ thống kê học, nhưng cũng có thể xem là một phần 
mềm có thể sử dụng cho các phân tích thống kê. Trong khoảng một thập niên 
qua, R đã trở nên cực kì phổ biến trong các trường đại học trên thế giới, và 
được dùng như là một phương tiện cho giảng dạy về thống kê học. Vì R hoàn 
toàn miễn phí nhưng có năng lực phân tích dữ liệu cao hơn các phần mềm 
thương mại (như SPSS, SAS, Stata, v.v.) nên các chuyên gia dự đoán rằng R sẽ 
trở thành một nhu liệu thống kê học phố biến nhất trong tương lai gần. Do 
đó, chúng ta cấn phải học và “làm quen” với R qua sử dụng nhu liệu này trong 
các phân tích dữ liệu. 

“Trải với cảm nhận thông thường, miễn phí không có nghĩa là chất lượng 
kém. Thật vậy, chẳng những hoàn toàn miễn phí, R còn có khả năng làm tất cả 
(xin nói lại: tất cả), thâm chí còn hơn cả, những phân tích mà các phần mềm 
thương mại làm. Có những phương pháp phân tích các phần mềm thương 
mại không thể thực hiện được, nhưng R có thể thực hiện một cách để dàng. 
Ngày nay, tất cả các phương pháp phân tích mới đều được triển khai qua R 
trước khi đưa vào các phần mềm khác. R có thể tải xuống máy tính cá nhân 
của bất cứ cá nhân nào, bất cứ lúc nào, và bất cứ ở đâu trên thế giới. Chỉ vài 
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phút cài đặt là R có thể đưa vào sử dụng. Chính vì thế mà đại đa số các đại học 
nước ngoài càng ngày càng chuyển sang sử dụng R cho học tập, nghiên cứu và 
giảng dạy. Trong xu hướng đó, cuốn sách này có một mục tiêu khiêm tốn là 
giới thiệu đến bạn đọc trong nước để kịp thời cập nhật hóa những phát triển 
về tính toán và phân tích thống kê trên thế giới. 

Cuốn sách này được soạn chủ yếu cho sinh viên đại học và các nhà nghiên 
cứu khoa học, những người cần một phần mềm để học thống kê, để phân tích 
số liệu, hay vẽ đố thị từ số liệu khoa học. Cuốn sách này không phải là sách 
giáo khoa về lí thuyết thống kê, hay nhằm chỉ bạn đọc cách làm phân tích 
thống kê, nhưng sẽ giúp bạn đọc làm phân tích thống kê hữu hiệu hơn và hào. 
hứng hơn. Mục đích chính của tôi là cung cấp cho bạn đọc những kiến thức 
cơ bản về thống kê, và cách ứng dụng R cho giải quyết vấn để, và qua đó làm. 
nến tảng để bạn đọc tìm hiểu hay phát triển thêm R. 


“Tôi cho rằng, cũng như bất cứ ngành nghề nào, cách học phân tích thống 
kê hay nhất là tự mình làm phân tích. Vì thế, sách này được viết với rất nhiều. 
ví dụ và đữ liệu thực. Bạn đọc có thể vừa đọc sách, vừa làm theo những chỉ dẫn 
trong sách (bằng cách gõ các lệnh vào máy tính) và sẽ thấy hào hứng hơn. Nếu 
bạn đọc đã có sẵn một đữ liệu nghiên cứu của chính mình thì việc học tập sẽ 
hữu hiệu hơn bằng cách ứng dụng ngay những phép tính trong sách. Đối với 
sinh viên, nếu chưa có số liệu sẵn, các bạn có thể dùng các phương pháp mô. 
phỏng (simulation) để hiểu thống kê hơn. Trong sách có một số đữ liệu dùng 
cho phân tích. Các dữ liệu này đã được đưa lên mạng và có trong trang web. 
'wwwstatistics.vn/data. Bạn đọc có thể tải dữ liệu về máy tính cá nhân và tự 
thực hành. Bạn đọc cũng có thể thực hành các hàm R trong máy tính cá nhân 
mà không cẩn tải dữ liệu về máy. 

Khoa học thống kê ở nước ta tương đối còn mới, cho nên một số thuật 
ngữ chưa được diễn dịch một cách thống nhất và hoàn chỉnh. Vì thế, bạn đọc 
sẽ thấy đâu đó trong sách một vài thuật ngữ “lạ; và trong trường hợp này, tôi 
cố gắng kèm theo thuật ngữ gốc tiếng Anh để bạn đọc tham khảo. Ngoài ra, 
trong phần cuối của sách, tôi có liệt kê các thuật ngữ Anh - Việt đã được để 
cập đến trong sách. 

"Tôi chân thành cảm ơn Tiến sĩ Nguyễn Đình Nguyên và Kiến trúc sư Nguyễn 
Nhất Hùng đã thiết kế và có ý tưởng thiết kế cho trang bìa của cuốn sách. 
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Tôi hi vọng bạn đọc sẽ tìm thấy trong sách một vài thông tin bổ ích, một 
vài kĩ thuật hay phép tính có ích cho việc học tập, giảng dạy và nghiên cứu của 
mình. Nhưng có lẽ, chẳng có cuốn sách nào hoàn thiện hay không có thiếu 
sót; đo đó, nếu bạn đọc phát hiện một sai sót trong sách, xin báo cho tôi biết. 
“Thành thật cảm ơn các bạn đọc trước. Bây giờ, tôi mời bạn đọc cùng đi với tôi 
một “hành trình thống kê” ngắn với R. 

[ Ñydney, ngày 30/7/2014 
(Những ngày dưỡng bệnh) 


| Nguyễn Văn Tuấn 
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1.1 Rlà gì? 


Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống 
kê và đồ thị. Thật ra, vế bản chất, R là ngôn ngữ máy tính đa năng, có thể sử 
dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải 
trí (recreational mathematics), tính toán ma trận (matrix), đến các phân tích 
thống kê phức tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để 
phát triển thành các phấn mềm chuyên môn cho một vấn để tính toán cá biệt. 


Hai người sáng tạo ra R là hai nhà thống kẻ học tẻn là Ross Ihaka và 
Robert Gentleman. Kể từ khi R ra đời, rất nhiều nhà nghiên cứu thống kê và 
toán học trên thế giới ủng hộ và tham gia vào việc phát triển R. Chủ trương 
của những người sáng tạo ra R là theo định hướng mở rông (Open Access). 
Cũng một phần vì chủ trương này mà R hoàn toàn miễn phí. Bất cứ ai ở bất 
cứ nơi nào trên thế giới đều có thể truy nhập và tải toàn bộ mã nguồn của R 
về máy tính của mình để sử dụng. Cho đến nay, chỉ qua chưa đẩy 5 năm phát 
triển, nhưng có nhiều nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh 
vực đã chuyển sang sử dụng R để phân tích đữ liệu khoa học. Trên toàn cấu, 
đã có một mạng lưới gần một triệu người sử dụng R, và con số này đang tăng 
theo cấp số nhân. Có thể nói trong vòng 10 năm nữa, chúng ta sẽ không cần 
đến các phần mềm thống kê đắt tiến như SAS, SPSS hay Stata (các phần mềm 
này giá có thể lên đến 100.000 USD một năm) để phân tích thống kê nữa, vì 
tất cả các phân tích đó có thể tiến hành bằng R. 


'Vì thế, những ai làm nghiên cứu khoa học cần nên học cách sử dụng R cho 
phân tích thống kê và đồ thị. Chương này sẽ hướng dẫn bạn đọc cách sử dụng R. 
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1.2 Tải R xuống và cài đặt vào máy tính 

Để sử dụng R, việc đấu tiên là chúng ta phải cài đặt R trong máy tính của 
mình. Để làm việc này, ta phải truy nhập vào mạng và vào website có tên là 
“Comprehensive R Archive Network” (CRAN) sau đây: 


http://cran.R-project.org.. 


“Tài liệu cấn tải về, tùy theo phiên bản, nhưng thường có tên bắt đầu bằng 
mẫu tự R và số phiên bản (version). Chẳng hạn như phiên bản mà tác giả sử 
dụng vào cuối năm 2005 là 2.2.1, nên tên của tài liệu cần tải là: 


R-2.2.1-win32.zip 
Tài liệu này khoảng 26 MB, và địa chỉ cụ thể để tải là: 
http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe 


"Tại website này, chúng ta có thể tìm thấy rất nhiều tài liệu chỉ dẫn cách sử 
dụng R, đủ trình độ, từ sơ đẳng đến cao cấp. Nếu chưa quen với tiếng Anh, tài 
liệu này có thể cung cấp những thông tin cẩn thiết để sử dụng mà không cần 
phải đọc các tài liệu khác. 

Khi đã tải R xuống máy tính, bước kế tiếp là cài đặt (set-up) vào máy tính. 
Để làm việc này, chúng ta chỉ đơn giản nhấn chuột vào tài liệu trên và làm theo 
hướng dẫn cách cài đặt trên màn hình. 


1.3 Package cho các phân tích đặc biệt 


R cung cấp cho chúng ta một “ngôn ngữ” máy tính và một số ƒwnction để 
làm các phân tích căn bản và đơn giản. Nếu muốn làm những phân tích phức 
tạp hơn, chúng ta cần phải tải về máy tính một số package khác. Package là 
một phần mềm nhỏ được các nhà thống kê phát triển để giải quyết một vấn để 
cụ thể, và có thể chạy trong hệ thống R. Chẳng hạn như để phân tích hồi qui 
tuyến tính, R có function 1m để sử dụng cho mục đích này, nhưng để làm các 
phân tích sâu hơn và phức tạp hơn, chúng ta cấn đến các package như lme4. 
Các package này cấn phải được tải về máy tính và cài đặt. 

Địa chỉ để tải các package vẫn là: http://cran.r-project.org, rồi bấm vào. 
phần “Packages” xuất hiện bên trái của mục lục trang web. Một số package cần 
tải về máy tính để sử dụng cho các ví dụ trong sách này là: 
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“TÊN PACKAGE 'CHỨC NẴNG. 























lattiee Dùng để vẽ đồ thị và làm cho đồ thị đẹp hơn 

Emise Một số phương pháp mô hình dữ liệu của F, Harrell 

re Package kèm theo cuốn sách về xây dựng mô hình tiên lượng của E, Harrell 
Bi Dùng cho các phần tích dịch tế học 

eplrools Một package khác chuyên cho các phân tích dịch tế học. 

forelgn Dùng để nhập dữ liệu tử các phần mềm khác như SPSS, Stata, SAS, v.v... 





Rmeta, metafor _ | Dùng cho phản tích tổng hợp (meta-analysis) 
Chuyên dùng cho phân tích theo mõ hình Cox 


























Ko 2u1ga) (Coxs proportional hazard model) 

2e1ig Package dùng cho các phân tích thống kê trong lĩnh vực xã hội học. 
geneties Package dùng cho phân tích số liệu di truyền học 

BMA Bayesian Model Average 

ggplot2 Package dùng cho biểu đố. 

psych Package đa năng nhưng có nhiều chức năng cho phân tích tâm lí học. 











1.4 Khởi động và ngưng chạy R 


Sau khi hoàn tất việc cài đặt, một icon sẽ xuất hiện trên desktop của máy 
tính. Đến đây thì chúng ta đã sẵn sàng sử dụng R. Có thể nhấp chuột vào icon 
này và chúng ta sẽ có một cửa sổ như sau: 


R2.2.1.nk 
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R thường được sử dụng dưới dạng “command line”, có nghĩa là chúng 
ta phải trực tiếp gõ lệnh vào cái prompt màu đỏ trên. Các lệnh phải tuân 
thủ nghiêm ngặt theo “văn phạm” và ngôn ngữ của R. Có thể nói toàn bộ 
bài viết này là nhằm hướng dẫn bạn đọc hiểu và viết theo ngôn ngữ của R. 
Một trong những văn phạm này là R phân biệt giữa Librazy và 1ibrary. 
Nói cách khác, R phân biệt lệnh viết bằng chữ hoa hay chữ thường. Một văn 
phạm khác nữa là khi có hai chữ rời nhau, R thường dùng dấu chấm để thay 
vào khoảng trống, chẳng hạn như data. £rame, +. test, read.table, 
v.v... Điều này rất quan trọng, nếu không để ý sẽ làm mất thì giờ của người 
sử dụng. 

Nếu lệnh gỗ ra đúng "văn phạm” thì R sẽ cho chúng ta một cải prompL 
khác hay cho ra kết quả nào đó (tùy theo lệnh); nếu lệnh không đúng văn 
phạm thì R sẽ cho ra một thông báo ngắn là không đúng hay không hiểu. Ví 
dụ, nếu chúng ta gõ: 


> x <- rnorm(20) 


thì R sẽ hiểu và làm theo lệnh đó, rối cho chúng ta một prompt khác: 





F—> 
Nhưng nếu chúng ta gõ: 
>R is great 
R sẽ không "đồng ý” với lệnh này, vì ngõn ngữ này không có trong thư 
viện của R, một thông báo sau đây sẽ xuất hú .H 





_—_ Brror: syntax error | 
> 
Khi muốn rời khỏi R, chúng ta có thể đơn giản nhấn nút chéo (x) bên góc 
trái của cửa sổ, hay gõ lệnh q(). 
1.5 “Văn phạm” ngôn ngữ R 


“Văn phạm” chung của R là một lệnh (command) hay function (thỉnh 
thoảng để cập đến là “hàm”). Mà đã là hàm thì phải có thông số; cho nên theo 
sau hàm là những thông số mà chúng ta phải cung cấp. Chẳng hạn như: 


> reg <- lm(y ~ x) 
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thì reg là một object, còn 1m là một hàm, và y ~ xlà thông số của hàm. Hay: 

> setwd("c:/works/stats") 

thì setwd là một hàm, còn “c;/works/stats” là thông số của hàm. 

Để biết một hàm cẩn có những thông số nào, chúng ta dùng lệnh args(x), 
(args viết tắt chữ arguments) mà trong đó x là một hàm chúng ta cần biết: 

> args (1m) 


function (formula, data, subset, weights, na.action, 

method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = 

TRUE, singular.ok = TRUE, contrasts = NULL, offset, ...) 

NULL 

R là một ngôn ngữ "đối tượng” (object oriented language). Điểu này có. 
nghĩa là các dữ liệu trong R được chứa trong object. Định hướng này cũng có 
vài ảnh hưởng đến cách viết của R. Chẳng hạn như thay vì viết x = 5 như 
thông thường chúng ta vẫn viết, thì R yêu cấu viết là x == 5. 

Đối với R,x = 5 tương đương với x <- 5. Cách viết sau (dùng kí hiệu 
<~) được khuyến khích hơn là cách viết trước (=). Chẳng hạn như: 








> x <- rnorm(10) 


có nghĩa là mô phỏng 10 số liệu và chứa trong object x. Chúng ta cũng có 
thể viết x = rnorm (10). 


Một số kí hiệu hay dùng trong R là: 


xe==5 x bằng 5 

xim5 x không bằng 5 

y<x y nhỏ hơn x 

x>y x]ớn hơn y 

z <= 1 z nhỏ hơn hoặc bằng 7 

Pp>=1 p lớn hơn hoặc bằng 1 

‡8.na (x) Có phải x là biến số trống (missing value) 
A&B A và B(AND) 

AIB5 A hoặc B (OR) 

' Không là (NOT) 
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Với R, tất cả các câu chữ hay lệnh sau kí hiệu # đểu không có hiệu ứng, vì 
# là kí hiệu dành cho người sử dụng thêm vào các ghi chú, ví dụ: 
> # lệnh sau đây sẽ mô phỏng 10 giá trị normal 


> x <- rnorm(10) 


1.6 Cách đặt tên trong R 

Đặt tên một đối tượng (object) hay một biến số (variable) trong R khá 
linh hoạt, vì R không có nhiều giới hạn như các phần mềm khác. Tên một 
object phải được viết liền nhau (tức không được cách rồi bằng một khoảng 
trống). Chẳng hạn như R chấp nhận myebject nhưng không chấp nhận 
my object. 

> myobject <- rnorm(10) 

> my object <- rnorm(10) 

Error: syntax error in "my object" 

Nhưng đôi khi tên myobjeet khó đọc, cho nên chúng ta nên tách rời 
bằng “” như my. object. 

> my.object <- rnorm(10) 

Một điểu quan trọng cẩn lưu ý là R phân biệt mẫu tự viết hoa và viết 
thường. Cho nên My.object khác với my.object. Ví dụ: 

> My.object.u <- 15 

> my.object.L <- 5 

> My.object.u + my.object.L 

[1] 20 

Một vài điểu cần lưu ý khi đặt tên trong R là: 

« Không nên đặt tên một biến số hay variable bằng kí hiệu “_” 
(underscore) như my _object hay my-object. 

« _ Không nên đặt tên một object giống như một biến số trong một dữ 
liệu. Ví dụ, nếu chúng ta có một data. £rame (dữ liệu hay dataset) 
với biến số age trong đó, thì không nên có một object trùng tên age, 
tức là không nên viết:age <- age. Tuy nhiên, nếu data.frame tên là 
data thì chúng ta có thể để cập đến biến số age với một kí tự $ như 
sau: data$age. (Tức là biến số age trong data.frame dat.a), và trong 
trường hợp đó, aøe <- data$age có thể chấp nhận được. 
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1.7 Hỗ trợ trong R 

Ngoài lệnh args ()_R còn cung cấp lệnh he1lp () để người sử dụng có 
thể hiểu “văn phạm” của từng hàm. Chẳng hạn như muốn biết hàm 1m có 
những thông số (arguments) nào, chúng ta chỉ đơn giản lệnh: 

> help (1m) 

hay 

> ?1m 

Một cửa sổ sẽ hiện ra bên phải của màn hình chỉ rõ cách sử dụng ra sao. 
và thậm chí có cả ví dụ. Bạn đọc có thể đơn giản copy và dán ví dụ vào R để 
xem cách vận hành. 

Trước khi sử dụng R, ngoài sách này, nếu cẩn, bạn đọc có thể đọc qua 
phần chỉ dẫn có sẵn trong R bằng cách chọn mục help và sau đó chọn Html 
help như hình dưới đây để biết thêm chỉ tiết. Bạn đọc cũng có thể copy và dán 
các lệnh trong mục này vào R để xem cho biết cách vận hành của R. 


_—-<SỞỪẸẰẸQhUhuhuhuauagagaryrnvnsns-zrïơờờơnc.. 





Thay vì chọn mục trên, bạn đọc cũng có thể đơn giản lệnh: 
> help.start () 
và một cửa sổ sẽ xuất hiện chỉ đẫn toàn bộ hệ thống R. 
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Hàm apropos cũng rất có ích vì nó cung cấp cho chúng ta tất cả các hàm. 
trong R bắt đầu bằng kí tự mà chúng ta muốn tìm. Chẳng hạn như chúng ta 
muốn biết hàm nào trong R có kí tự "lm” thì chỉ đơn giản lệnh: 


> apropos ("1m"). 


Và R sẽ báo cáo các hàm với kí tự lm như sau có sẵn trong R: 


[1] ". C€ anova.gim" ". Œ anova.gim.null"°", C€ gim" 
[4] ". C gim.nul1" ". C 1m” ",_C mlÌm" 
[7] "anova.gìm" “anova.gìmlist" "“anova. 1m" 
(10] "aneva.1mlist" "anova.mìm" "®anovalist. 1m" 
(13) "contr.helmert" "gìm" "gìm.control" 
(16) "glm.fit" "g]m.fit.nu11* “hatvalues. Im" 
(19] "KalmanForecast"  "KalmanLike" "Ka1manRun" 
(22] "KalmanSmooth" "1m" "ìm.fie" 

(25) "1m.fit.null" "1m, influence" "1m,wit" 

(28] "1m.wfit.nul1" “model. frame .gìm" "model, £rame. 1" 
(31] “model.matrix.lm"  "nìm" ®nìminb" 

(34] "plot.1m" "plot.mìm" “predict..g1m" 
(37] "predict.1m" "predict .mìm" "print.gim" 
(40] "print.1m" "residuals.gìm" "residua1s. 1m" 
(43] "rstandard.gim" “zstandard. 1m" "rstudent .g1m" 
(46] "rstudent.lm" "“sumnary.gìm" "summary. 1m" 
(49) "summary.mlm" “kappa. 1m" 





1.8 Môi trường vận hành 


Dữ liệu phải được chứa trong một khu vực (directory) của máy tính. 
Trước khi sử dụng R, có lẽ cách hay nhất là tạo ra một directory để chứa dữ 
liệu, chẳng hạn như c:\works\stats. Để R biết đữ liệu nằm ở đâu, chúng ta sử 
dụng lệnh setwd (set working directory) như sau: 


> setwd("c:/works/stats") 
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Lệnh trên báo cho R biết là đữ liệu sẽ chứa trong directory có tên là 
€:\works\stats. Chú ý rằng, R dùng forward slash “/” chứ không phải backward. 
slash “\” như trong hệ thống Windows. 

Chú ý rằng R có khả năng đọc đữ liệu trực tiếp từ mạng (từ các website). 
Do đó, chúng ta cũng có thể dùng lệnh setwd để báo cho R biết rằng chúng ta 
làm việc trực tiếp trên mạng như trong lệnh sau đây: 

> setwd ("http: //www.r. ykhoanet..com/ ") 

Để biết hiện nay, R đang “làm việc” ở đirectory nào, chúng ta chỉ cần lệnh: 

> getwd () 

(1] "C:/Program Files/R/R-2.2.1" 

Cái prompt mặc định của R là “>” Nhưng nếu chúng ta muốn có một 
prompt khác theo cá tính cá nhân, chúng ta có thể thay thế: 


> options (prompt="R>_") 








R 

Hay: 

> options (prompt="Tuan>_ ”) 
Tuan> 


Màn ảnh R mặc định là 80 kí tự (characters), nhưng nếu chúng ta muốn. 
màn ảnh rộng hơn, thì chỉ cấn ra lệnh: 


> options (width=100) 
Hay muốn R trình bày các số liệu ở dạng 3 số thập phân: 
> options (scipen=3) 


Các lựa chọn và thay đổi này có thể dùng lệnh options(). Để biết các thông 
số hiện tại của R là gì, chúng ta chỉ cần lệnh: 


> options() 
"Tìm hiểu ngày tháng: 
> Sys.Date() 
[1] "2006-03-31" 


Nếu bạn đọc cấn thêm thông tin, một số tài liệu trên mạng (viết bằng 
tiếng Anh) cũng rất có ích. Các tài liệu này có thể tải xuống máy miễn phí: 
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R for beginners (của Emmanuel Paradis): 
http://cran.r-project.org/doc/contrib/rdebuts_en.pdf 

Using R for data analysis and graphics (của John Maindonald): 
http://cran.r-project.org/doc/contrib/usingR.pdf. 

Ngoài ra, tác giả cũng có một tài liệu bằng tiếng Việt (dài 118 trang) tóm 


lược các lệnh hay sử dụng trong R tại website: 


http://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf 
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@® Nhập dữ liệu 





dạng mà R có thể hiểu được để xử lí. Dữ liệu mà R hiểu được phải 
là dữ liệu trong một data . £rame. Có nhiều cách để nhập số liệu 
vào một data . £rame trong R, từ nhập trực tiếp đến nhập từ các nguồn khác 
nhau. Sau đây là một số cách thông dụng nhất: 
« _ Nhập dữ liệu trực tiếp 
« _ Nhập dữ liệu trong frame 
« _ Đọc dữ liệu từ các phần mềm khác như Excel 


M: làm phân tích dữ liệu bằng R, chúng ta phải có sẵn dữ liệu ở 


2.1 Nhập số liệu trực tiếp: c() 


Ví dụ 1: chúng ta có số liệu về độ tuổi và insulin cho 10 bệnh nhân như 
sau, và muốn nhập vào R. 


50 16.5 
62 10.8 
60 32.3 
40 19.3 
48 14.2 
47 11.3 
57 15.5 
T0 15.8 
48 16.2 
61 11.2 
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Chúng ta có thể sử dụng function có tên c như sau: 
> age = c(50,62, 60,40,48,47,57,70,48,6?) 
> insulin = c(16.5,10.8,32.3,19.3,14.2,11.3,15.5, 
15.8/16.2,11.2) 
Lệnh thứ nhất cho R biết rằng chúng ta muốn tạo ra một cột dữ liệu (sẽ gọi 
là biến số, tức variable) có tên là aqe, và lệnh thứ hai là tạo ra một cột khác có 
tên là insu1 in. Tất nhiên, chúng ta có thể lấy một tên khác mà mình thích. 


Chúng ta dùng function c (viết tất của chữ concatenation - 
có nghĩa là “móc nối vào nhau”) để nhập dữ liệu. Chú ý rằng mỗi số liệu cho. 
mỗi bệnh nhân được cách nhau bằng một dấu phẩy. 

Kíhiệu insulin <~ (cũng có thế viết là insulin =) có nghĩa là các số 
liệu theo sau sẽ nằm trong biến số ¡nsu1 ¡ n. Chúng ta sẽ gặp kí hiệu này rất 
nhiều lần trong khi sử dụng R. 

R là một ngôn ngữ cấu trúc theo dạng đối tượng (thuật ngữ chuyên môn. 
là “object-oriented language”), vì mỗi cột số liệu hay mỗi một data.. frame 
là một đối tượng (object đối với R. Vì thế, age và insulin là hai đối 
tượng riêng lẻ. Bây giờ, chúng ta cẩn phải nhập hai đối tượng này thành một 
data.£rame để R có thể xử lí sau này. Để làm việc này chúng ta cần đến 
function data.. £rame: 

> tuan “ data.frame(age, insulin) 


Trong lệnh này, chúng ta muốn cho R biết rằng nhập hai cột (hay hai đối 
tượng) age và insu 1 in vào một đối tượng có tên là tuan. 


Đến đây thì chúng ta đã có một đối tượng hoàn chỉnh để tiến hành phân. 
tích thống kẻ. Để kiểm tra xem trong tuan có gì, chúng ta chỉ cần đơn giản gỗ: 


> tuan 


Và R sẽ báo cáo: 
age insulin 
1 50 6.5 
62 to.8 
› 60 2.3 
4 40 19.3 
: 48 14. 
47 l1. 


2 
3 
57 5.5 
8 
2 
2 





70 5. 
48 16. 


10 67 H1. 
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Nếu chúng ta muốn lưu lại các số liệu này trong một file theo dạng R, 
chúng ta cẩn dùng lệnh save. Giả dụ như chúng ta muốn lưu số liệu trong 
đirectory có tên là “c:\works\stats? chúng ta cần gõ như sau: 

> setwd("c:/works/stats") 

> save (tuan, file="tuan.rda") 

Lệnh đầu tiên (setwd ~ chữ wd có nghĩa là working đirectory) cho R biết 
rằng chúng ta muốn lưu các số liệu trong directory có tên là "c:\works\stats”. 
Lưu ý rằng thông thường hệ thống Windows dùng dấu backward slash “\; 
nhưng trong R chúng ta dùng dấu forward slash “/” 

Lệnh thứ hai (save) cho R biết rằng các số liệu trong đối tượng tuan sẽ 
lưu trong file có tên là "tuan.rda” Sau khi gõ xong hai lệnh trên, một file có tên 
tuan.rda sẽ có mặt trong directory đó. 


2.2 Nhập số liệu trực tiếp: edit(data.frame()) 

Ví dụ 1 (tiếp tục): chúng ta có thể nhập số liệu về độ tuổi và insulin cho 10 
bệnh nhân bằng một function rất có ích, đó là: edit(data.frame()). Với function 
này, R sẽ cung cấp cho chúng ta một cửa sổ mới với một dãy cột và dòng giống 
như Excel, và chúng ta có thể nhập số liệu trong bảng đó. Ví dụ: 

> ins = edit (data,£rame ()) 


Chúng ta sẽ có một window như sau: 
._——Ễễễễễ— 
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Ở đây, R không biết chúng ta có biến số nào, cho nên R liệt kê các biến số 
var1, var2, v.v... Nhấp chuột vào cột var1 và thay đổi bằng cách gõ vào đó age. 
Nhấp chuột vào cột var2 và thay đối bằng cách gõ vào đó insulin. Sau đó gõ số 
liệu cho từng cột. Sau khi xong, bấm nút chéo X ở góc phải của spreadsheet, 
chúng ta sẽ có một đata.frame tên ins với hai biến số age và insulin. 


2.3 Nhập số liệu từ một fext file: read.table 


Ví dụ 2: Chúng ta thu thập số liệu về độ tuổi và cholesterol từ một nghiên 
cứu ở 50 bệnh nhân mắc bệnh cao huyết áp. Các số liệu này được lưu trong 
một text file có tên là cho1.txt tại directory c: \works\stats. Số liệu 
này như sau: cột 1 là mã số của bệnh nhân, cột 2 là giới tính, cột 3 là body 
mass index (bmi), cột 4 là HDL cholesterol (viết tắt là hdl), kế đến là LDL 
cholesterol, total cholesterol (tc) và triglycerides (tg). 








id sex age bmi hdl ldl te tg 
1 Nam 57T 17 5.000 2.0 4.0 1.1 
2 Nu 64 18 4.380 3.0 3.5 2.1 
3 Nu 60 18 3.360 3.0 4.7 0.8 
4 Nam 65 18 5.920 4.0 7.7 1.1 
5 Nam 47 18 6.250 2.1 5.0 2.1 
6 Nu 65 18 4.150 3.0 4.2 1.5 
1 Nam 76 19 0.737 3.0 5.9 2.6 
8 Nam 61 19 1.170 3.0 6.1 1.5 
9 Nam 58 19 6.942 3.0 5.9 5.4 
10 Nu 51 19 5.000 2.0 4.0 3:9 

44 Nam 45 24 5.450 2.5 6.0 „6 

45 Nam 63 24 5.000 3.0 4.0 1.8 

46 Nu 52 24 3.360 2.0 3.7 1.2 

47 Nam 64 24 7.170 1.0 6.1 1.9 

48 Nam 45 24 7.880 4.0 6.7 3.3 

49 Nu 64 25 7.360 4.6 8.1 4.0 

50 Nu 62 25 1.750 4.0 6.2 2:5 

Chúng ta muốn nhập các đữ liệu này vào R để tiện việc phân tí: 


ích sau này. 
Chúng ta sẽ sử dụng lệnh read..cab1e như sau: Ị 


> setwd("c:/works/stats") 


> chol = read.table("chol.txt", header=TRUE) 
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Lệnh thứ nhất chúng ta muốn đảm bảo R truy nhập đúng directory mà 
số liệu đang được lưu giữ. Lệnh thứ hai yêu cầu R nhập số liệu từ le có tên. 
là “cho1.txt” (trong directory c: \worxs\stats) và cho vào đối tượng 
cho1. Trong lệnh này, header=TRUE có nghĩa là yêu cầu R đọc dòng đầu 
tiên trong file đó như là tên của từng cột đữ kiện. 


Chúng ta có thể kiểm tra xem R đã đọc hết các dữ liệu hay chưa bằng cách 
ra lệnh: 

> chol 

hay 

> names (chol) 


R sẽ cho biết có các cột như sau trong dữ liệu (name là lệnh hỏi trong dữ 
liệu có những cột nảo và tên gì): 


(1] "ìd" “sex" “age" "“bmi" "hd]" "1d" "te" "tạm 


Bây giờ chúng ta có thể lưu dữ liệu dưới dạng R để xử lí sau này bằng cách 
ra lệnh: 


> save(chol, file="chol.rda”) 








2.4 Nhập số liệu từ Excel: read.csv 
Để nhập số liệu từ phần mềm Excel, chúng ta cẩn tiến hành 2 bước: 
« _ Bước 1: Dùng lệnh “Save as” trong Excel và lưu số liệu dưới dạng “csv”; 
« _ Bước 2: Dùng R (lệnh read.csv) để nhập dữ liệu dạng csv. 


Ví dụ 3: Một dữ liệu gồm các cột sau đây đang được lưu trong Excel, và 
chúng ta muốn chuyển vào R để phân tích. Dữ liệu này có tên là exce1 .x1s.. 
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1 | 22 1 1 144.81] 3.63 68.26 | 4.54 | 3.70 
12 | 27 0 2 141.60 | 3.48 56.78 | 4.47 | 4.07 
13 | 26 | + ñ 161.80 | 4.10 15.15 | 6.27 | 5.26 
144 | 332 | 1 1 99.20 | 2.82 48.57 | 3.58 | 3.68 
15 | 34 1 3 161.80 | 3.80 50.68 | 3.52 | 3.35 
16 | 32 | 1 ñ 148.50 | 3.72 93.98 | 4,85 | 3.80 
17 | 28 | 1 1 157.70 | 3.98 60.42 | 4.88 | 4.09 
18 | 18 ñ 2 222.30 | 3.38 74.17 | 6.43 | 5.84 
19 | 26 | 0 2 186.70 | 4.64 38.05 | 5.12 | 5.77 
20 | 27 1 2 167.56 | 3.56 | 321.12| 30.18 | 4.78 | 6.12 






































Việc đầu tiên chúng ta cẩn làm, như đã nói ở trên, là vào Excel để lưu dữ 
liệu dưới đạng csv: 


« - Vào Excel, chọn File *Ề Save as 
« ChọnSave as type "CSV (Comma delimited)" 





Sau khi xong, chúng ta sẽ có một file với tên “excel.csv” trong directory 
cơ: \works\stats” 


Việc thứ hai là vào R và ra những lệnh sau đây: 


> setwd(”c:/works/stats") 





> gh = read.csv 





excel.csv”, header=TRUE) ] 


Lệnh thứ hai read.csv yêu cầu R đọc số liệu từ “excel.csv” dùng dòng thứ 
nhất là tên cột, và lưu các số liệu này trong một object có tên là gh. 
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Bây giờ chúng ta có thể lưu gh dưới dạng R để xử lí sau này bằng lệnh 
sau đây: 


> save(gh, file="gh.rda") 


2.5 Nhập số liệu từ một SPSS: read.spss 

Phần mềm thống kê SPSS lưu dữ liệu dưới dạng “sav”. Chẳng hạn như nếu 
chúng ta đã có một đữ liệu có tên là testo.sav trong directory c:\works\stats, và 
muốn chuyển dữ liệu này sang dạng R có thể hiểu được, chúng ta cần sử dụng 
lệnh read. spss trong package có tên là Sore i gn. Các lệnh sau đây sẽ hoàn 
tất dể đàng việc này: 

'Việc đầu tiên chúng ta cho truy nhập £oreign bằng lệnh 1 ibzary: 

> 1ibrary (foreign) 

'Việc thứ hai là lệnh read.spss: 

> setwd(”c:/works/stats") 

> testo = read.spss("testo.sav", to.data.frame=TRUE) 


Lệnh thứ hai read.spss yêu cầu R đọc số liệu từ “testo.sav”, và cho vào một. 
data.frame có tên là testo. 


Bây giờ chúng ta có thể lưu testo dưới dạng R để xử lí sau này bằng lệnh 
sau đây: 


> save(testo, file="testo.rda") 


2.6 Thông tin cơ bản về dữ liệu 


Giả dụ như chúng ta đã nhập số liệu vào một data.frame có tên là eho1 
như trong ví dụ 1. Để tìm hiểu xem trong dữ liệu nảy có gì, chúng ta có thể 
nhập vào R như sau: 


« Dẫn cho R biết chúng ta muốn xử lí chol bằng cách dùng lệnh 
attach (arg) với arg là tên của dữ liệu.. 
> attach (chol) 

«_ Chúng ta có thể kiểm tra xem chol có phải là một data.frame không 
bằng lệnh i s.data. £rame (arg) với arg là tên của dữ liệu. Ví dụ: 
> is.data.frame (chol) 


[1] TRUE 
R cho biết cho1 quả là một data.frame. 
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« Có bao nhiêu cột (hay variable = biến số) và dòng số liệu (observations) 
trong dữ liệu này? Chúng ta dùng lệnh đim (arg) với arg là tên của 
đữ liệu. (dim viết tắt chữ dimension). Ví dụ (kết quả của R trình bày. 
ngay sau khi chúng ta gõ lệnh): 
> dim(chol) 

I1] 50 8 

« _ Như vậy, chúng ta có 50 dòng và 8 cột (hay biến số). Vậy những biến 
số này tên gì? Chúng ta dùng lệnh names (arg) với arg là tên của 
dữ liệu. Ví dụ: 
> names (chol) 


[1] "id" "sex" "age" "bmi" "hd]" "]d]" "tem "tạm 


« _ Trong biến số sex, chúng ta có bao nhiêu nam và nữ? Để trả lời câu 
hỏi này, chúng ta có thể dùng lệnh tab1e (arg) với arg là tên của 
biến số. Vĩ dụ: 
> table (sex) 
sex 
nam Nam Nu 

1 21 28 

Kết quả cho thấy dữ liệu này có 1 “nam”, 21 “Nam” và 28 “Nu”. Chú ý R 
phân biệt giữa “nam” và “Nam” nên xem đây là hai nhóm khác nhau! 

Trên đây là vài cách nhập dữ liệu vào R. Trong thực tế, R có thể đọc đữ 
liệu từ rất nhiều phần mềm thông dụng, kể cả các phần mềm thống kê như 
§PSS (mà chúng ta đã xem qua), SAS, STATA, v.v... Nhưng để đọc dữ liệu từ 
các phần mềm này, bạn đọc cần phải tải package £orei gn về máy và cài đặt 
vào R. Package £ozeign có thể tải từ website chính thức của R. 
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tội lớn, một sự gian đối trong khoa học không thể chấp nhận được), 

mà chỉ có nghĩa tổ chức số liệu sao cho R có thể phân tích một cách 
hữu hiệu. Nhiều khi trong phân tích thống kê, chúng ta cần phải tập trung 
số liệu thành một nhóm, hay tách rời thành từng nhóm, hay thay thế từ kí tự 
(characters) sang số (numeric) cho tiện việc tính toán. Chương này sẽ bàn qua 
một số lệnh căn bản cho việc biên tập số liệu. 

Chúng ta sẽ quay lại với dữ liệu eho1 trong ví dụ 1. Để tiện việc theo dõi 
và hiểu “câu chuyện” xin nhắc lại rằng chúng ta đã nhập số liệu vào trong một 
dữ liệu R có tên là cho1 từ một text file có tên là cđho1 .xt: 

> setwd(”c:/works/stats") 

> chol = read.table("chol.txt"”, header=TRUE) 


B iên tập số liệu ở đây không có nghĩa là thay đổi số liệu gốc (vì đó là một 


> attach (chol) 


3.1 Kiểm tra số liệu trống không (missing value) 


“Trong nghiên cứu, vì nhiều lí do số liệu không thể thu thập được cho 
tất cả đối tượng, hay không thể đo lường tất cả biến số cho một đối tượng. 
“Trong trường hợp đó, số liệu trống được xem là “missing value” (tạm dịch là 
số liệu trống không). R xem các số liệu trống không là NA. Có một số kiểm 
định thống kê đòi hỏi các số liệu trống không phải được loại ra (vì không thể 
tính toán được) trước khi phân tích. R có một lệnh rất có ích cho việc này: 
na. omi E, và cách sử dụng như sau: 


> chol.new = na.omit (chol) 
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Trong lệnh trên, chúng ta yêu cầu R loại bỏ các số liệu trống không trong 
data.frame chol và đưa các số liệu không trống vào data.frame mới tên là 
cho1 .new. Chú ý lệnh trên chỉ là ví dụ, vì trong dữ liệu eho1 không có số 
liệu trống không. 


3.2 Tách rời dữ liệu: subset 

Nếu chúng ta vì một lí do nào đó, chỉ muốn phân tích riêng cho nam giới, 
chúng ta có thể tách cho 1 ra thành hai data.frame, tạm gọi là nam và nu. Để 
làm chuyện này, chúng ta dùng lệnh subset (data, cond), trong đó data 
là data.frame mà chúng ta muốn tách rời, và cond là điểu kiện. Ví dụ: 
“Nam”) 

Nu") 

Sau khi ra hai lệnh này, chúng ta đã có 2 dữ liêu (hai data.frame) mới tên 
là nam và nu. Chú ý điểu kiên sex == "Nam" và sex == "Nu" chúng ta 
dùng == thay vì = để chỉ điểu kiện chính xác. 

Tất nhiên, chúng ta cũng có thể tách dữ liệu thành nhiều đata.frame khác 
nhau với những điểu kiện dựa vào các biến số khác. Chẳng hạn như lệnh sau 
đây tạo ra một data.frame mới tên là o ì d với những bệnh nhân trên 60 tuổi: 

> old = subset(chol, age>=60) 

> dim(old) 

I1] 25 8 
Hay một data.frame mới với những bệnh nhân trên 60 tuổi và nam giới: 


> n60 <- subset (chol, age>=60 & sex=="Nam”) 
> dim(n60) 


[1] 9 8 


> nam = subset(chol, se: 





> nu = subset (chol, sex 





3.3 Chiết số liệu từ một data.frame 

Trong eho1 có 8 biến số. Chúng ta có thể chiết đữ liệu eho1 và chỉ giữ 
lại những biến số cần thiết như mã số (‡ 3), độ tuổi (age) và total cholesterol 
(re). Để ý từ lệnh names (cho1) rằng biến số i d là cột số 1, age là cột số 3, 
và biến số tc là cột số 7. Chúng ta có thể dùng lệnh sau đây: 

> data2 = chol[, c(1,3,7)] 

Ở đây, chúng ta lệnh cho R biết rằng chúng ta muốn chọn cột số 1, 3 và 7, 
và đưa tất cả số liệu của hai cột này vào data.frame mới có tên là data2. Chú 
ý chúng ta sử dụng ngoặc kép vuông [] chứ không phải ngoặc kép vòng (), vì 
cho1 không phải là một function. Dấu phẩy phía trước c, có nghĩa là chúng 
ta chọn tất cả các dòng số liệu trong data.Írame cho 1. 





'lpe/fielun heploerg 


Nhưng nếu chúng ta chỉ muốn chọn 10 dòng số liệu đầu tiên, thì lệnh sẽ là: 
> data3 = chol[1:10, c(1,3,7)] 


> print (data3) 


id sex tc 
1 1 Nam 4.0 
2 2 Nu 3.5 
5 3 Nu 4.7 
4 4 Nam 7.7 
5 5 Nam 5.0 
6 6 Nu 4.2 
lệ 7 Nam 5.9 
8 8 Nam 6.1 
9 9 Nam 5,9 
10 10 Nu 4.0 


Chú ý lệnh print (arg) đơn giản liệt kê tất cả số liệu trong data.frame 
arg. Thật ra, chúng ta chỉ cẩn đơn giản gõ data3, kết quả cũng giống y như 
print (data3), 

3.4 Nhập hai data.frame thành một: merge 


Giả dụ như chúng ta có dữ liệu chứa trong hai data.frame. Dữ liệu thứ 
nhất tên là d1 gồm 3 cột: id, sex, tc như sau: 


id_ sex t 


z 
ø 
3 


z 
m 
R 
ƠI Ơ ƠI v1 ƠI In GD 
SœmBẽq@œ®wonsuưoon 


id sex tợ 
1 Nam 1.1 
2 Nu 2.1 
3 Nu 0.8 
4 Nam 1.1 
5 Nam 2.1 





'lpe/fielun heploerg 


6 Nu 1.5 
7 Nam 2.6 
8 Nam 1.5 
9 Nam 5.4 
10 Nu 1.9 
11 Nu 1.7 


Hai đữ liệu này có chung hai biến số ¡ d và sex. Nhưng dữ liệu ä1 có 10 
dòng, còn dữ liệu ä2 có 11 dòng. Chúng ta có thể nhập hai dữ liệu thành một 
data.frame bằng cách dùng lệnh merze như sau: 


> d = merge(d1, d2, by="id", a11=TRUE) 





>d 

Il SEX.X E€ S&X.ÿ EỢ 
gốÕ 3 Nam 4.0 Nam 1.1 
¿› i4 Nu 3.5 Nu 2.1 
3. 3 Nu 4.7 Nu 0.8 
4 4 Nam 7.7 Nam 1.1 
55 Nam 5.0 Nam 2.1 
6 6 Nu 4.2 Nu 1.5 
n. 2# Nam 5.9 Nam 2.6 
88 Nam 6.1 Nam 1.5 
9g..9 Nam 5.9 Nam 5.4 
10 10 Nu 4.0 Nu 1.9 
1l 11 <NA> NA Nu 1.7 


Trong lệnh me rqe, chúng ta yêu cấu R nhập 2 dữ liệu d1 và «2 thành một 
và đưa vào data.frame mới tên là si, và dùng biến số ¡ad làm chuẩn. Chúng ta 
để ý thấy bệnh nhân số 11 không có số liệu cho te, cho nên R cho là NA (một 
dạng “not available”). 


3.5 Mã hóa số liệu (data coding) 

“Trong việc xử lí số liệu dịch tế học, nhiều khi chúng ta cẩn phải biến đối 
số liệu từ biến liên tục sang biến mang tính cách phân loại. Chẳng hạn như 
trong chẩn đoán loãng xương, những phụ nữ có chỉ số T của mật độ chất 
khoáng trong xương (bone mineral density hay BMD) bằng hay thấp hơn -2.5 
được xem là “loãng xương”, những ai có BMD giữa -2.5 và -1.0 là “xốp xương” 
(osteopenia), và trên -1.0 là “bình thường” Ví dụ, chúng ta có số liệu BMD từ 
10 bệnh nhân như sau: 


~0.92, 0.21, 0.17, -3.21, -1.80, -2.60, -2.00, 1.71, 
2.12, -2.11 
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Để nhập các số liệu này vào R chúng ta có thể sử dụng ƒnction c như sau: 

bmd = c(-0.92,0.21,0.17,~3.21,-1.80,-2.60, 

~2.00,1.71,2.12,-2.11) 

Để phân loại 3 nhóm loãng xương, xốp xương, và bình thường, chúng ta 
có thể dùng mã số 1, 2 và 3. Nói cách khác, chúng ta muốn tạo nên một biến 
số khác (hãy gọi là aäiagnosis) gồm 3 giá trị trên dựa vào giá trị của bmcl. 
Để làm việc này, chúng ta sử dụng lệnh: 

# tạm thời cho biễn số điagnosis bằng bmd 


> điagnosis = bmd 


+ 


biến đổi bmd thành diagnosis 


v 


dđiagnosis[bmd <= -2.5] <- 1 


v 


diagnosis[bmd > -2.5 & bmd <= 1.0] <- 2 


v 


điagnosis[bmd > -1.0] <- 3 


x 


tạo thảnh một data.frame 


v 


data = data.frame (bmd, diagnosis) 


~ 


liệt kê để kiểm tra xem lệnh có hiệu quả không 
> data 
bmd diagnosis 

1 -0.,92 
2 0.21 
3 0.17 
4 -3.21 
5 -1.,80 
6 -2.60 
7 -2.00 
8 1.71 
9 2.12 
10 -2.11 


N0 0 N HN 0 0 0 
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3.5.1 Biến đổi số liệu bằng cách dùng replace 

Một cách biến đổi số liệu khác là dùng replace, nhưng cách này 
tương đối phúc tạp hơn. Tiếp tục ví dụ trên, chúng ta biến đổi từ bmd_ sang 
diagnosis như sau: 

> diagnosis = bmd 

> diagnosis = replace(diagnosis, bmd <= -2.5, 1) 

> điagnosis = replace(diagnosis, bmd>-2.5 & bmd<=1.0, 2) 


> diagnosis = replace(diagnosis, bmd > -1.0, 3) 


3.5.2 Biến đổi thành yếu tố (factor) 

Trong phân tích thống kê, chúng ta phân biệt một biến số mang tính yếu 
tố (factor) và biến số liên tục bình thưởng. Biến số yếu tố không thể dùng để 
tính toán như cộng trừ nhân chia, nhưng biến số số học có thể sử dụng để tính 
toán. Chẳng hạn như trong ví dụ bmd và di agnosis trên, diagnosi s là yếu 
tố vì giá trị trung bình giữa 1 và 2 chẳng có ý nghĩa thực tế gì cả; còn bmd là 
biến số số học. 

Nhưng hiện nay, äiagnaosis được xem là một biến số số học. Để biến. 
thành biến số yếu tố, chúng ta cần sử dụng ƒunction £actor như sau: 

> diịag = factor (diagnosis) 

> diag 

(1) 33531212332 

Levels: 1 2 3 

Chú ý R bây giờ thông báo cho chúng ta biết diag có 3 bậc: 1, 2 và 3. Nếu 
chúng ta yêu cấu R tính số trung bình của diag, R sẽ không làm theo yêu cầu. 
này, vì đó không phải là một biến số số học: 

> mean (diag) 

(1] NA 

Warning message: 

argument is not numeric or logical: returning NA in: 

mean.defau1t (diag) 

Dĩ nhiên, chúng ta có thể tính giá trị trung bình của điagnosi s: 

> mean (diagnosis) 


(1] 2.3 
Nhưng kết quả 2.3 này không có ý nghĩa gì trong thực tế cả. 
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3.6 Chia nhóm bằng cut 

Với một biến liên tục, chúng ta có thể chia thành nhiều nhóm bằng hàm 
cut. Ví dụ, chúng ta có biến age như sau: 

> age = C(17,19,22,43,14,8,12,19,20,51,8,12,27,31,44) 

Độ tuổi thấp nhất là 8 và cao nhất là 51. Nếu chúng ta muốn chia thành 
2 nhóm tuổi: 


> cut(age, 2) 


[1] (7.96,29.5] (7.96,29.5] (7.96,29.5] (29.5,51] 
(7.96,29.5] (7.96,29.5] (7.96,29.5] (7.96,29.5] 


[9] (7.96,29.5] (29.5,51] (7.96,29.5] (7.96,29.5] 

(7.96,29.5] (29.5,51] (29.5,51] 

Levels: (7.96,29.5] (29.5,51] 

cut chia biến age thành 2 nhóm: nhóm 1 tuổi từ 7.96 đến 29.5; nhóm. 
2 từ 29.5 đến 51. Chúng ta có thể đếm số đối tượng trong từng nhóm tuổi bằng. 
hàm tab1e như sau: 


> table (cut(age, 2)) 


(7.96,29.5] (29.5,51] 
11 4 


Trong lệnh sau đây, chúng ta chia biến độ tuổi thành 3 nhóm và đặt tên ba 


nhóm là “low “medium” và “high”: 
> ageg = cut(age, 3, labels=c("low", "medium", "high") 


[1l low low low hỉgh low low  low - low 
low hỉgh low low  medium medium 
[15] high 


1evels: low medium high 

> ageg = cut(age, 3, labels=c("low", "medium", "high") 
> table (ageg) 

aqeg 


1ow medium high 
10 2 3 
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Tất nhiên, chúng ta cũng có thể chia age thành 4 nhóm (quartiles) bằng 
cách cho những thông số 0, 0.25, 0.50 và 0.75 như sau: 
cut (age, 
breaks=quantiles(age, c(0, 0.25, 0.50, 0.75, 1)), 
labels=c("q1", "q2", "q3", "q4"), 
include. 1owest=TRUE) 


3.7 Tập hợp số liệu bằng cut2 (Hmisc) 


Hàm cut trên chia biến số theo giá trị của biến, chứ không dựa vào số 
mẫu, cho nên số lượng mẫu trong từng nhóm không bằng nhau. Tuy nhiên, 
trong phân tích thống kê, có khi chúng ta cẩn phải phân chia một biến số liên 
tục thành nhiều nhóm dựa vào phân phối của biến số nhưng số mẫu bằng hay 
tương đương nhau. Chẳng hạn như đối với biến số bmd chúng ta có thể “cất” 
dãy số thành 3 nhóm với số mẫu tương đương nhau bằng cách dùng function 
cut2 (trong package Hmi se) như sau: 


‡ nhập package Hmisc để có thể dùng function cut2 
> 1ibrary (Hmisc) 


> bmd = c(-0.92,0.21,0.17,-3.21,~1.80,~2.60, 
~2.00,1,71,2.12,-2.11) 


# chia biển số bmd thành 2 nhóm và để trong đỗi tượng group 
> group = cut2(bmd, g=2) 


> table(group} 

group 

(-3.21,-0.92) [-0.92, 2.12] 
5 5 


Như thấy qua ví dụ trên, =2 có nghĩa là chia thành 2 nhóm (g = group). R. 
tự động chia thành nhóm 1 gồm giá trị bmd từ -3.21 đến -0.92, và nhóm 2 từ 
~0.92 đến 2.12. Mỗi nhóm gồm có 5 số. 

Tất nhiên, chúng ta cũng có thể chia thành 3 nhóm bằng lệnh: 

> group = cut2(bmd, g=3) 

Và với lệnh table chúng ta sẽ biết có 3 nhóm, nhóm 1 gốm 4 số, nhóm 2 
và 3 mỗi nhóm có 3 số: 

> table(group) 


group 
(-3.21,-1.80) ([-1.80, 0.21) [ 0.21, 2.12] 


4 3 3 
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HđIớNG. Xà. 


Dùng R cho các phép tính 
đơn giản và ma trận 








lột trong những lợi thế của R là có thể sử dụng như một máy tính cầm 
tay. Thật ra, hơn thế nữa, R có thể sử dụng cho các phép tính ma trận và 

chương. Chương này chỉ trình bày một số phép tính đơn giản mà 

học sinh hay sinh viên có thể sử dụng lập tức trong khi đọc những dòng chữ này. 























4.1 Tính toán đơn giản 

Cộng hai số hay nhiều số với nhau: —_ | Cộngvàtrừ. 

> 15+2997 > 15+2997-9768 
(1] 3012 [1] ~6756 
Lư: 

Nhân và chia. Số lũy thừa: (25 - 5)" 
> -27°12/21 > (25 - 5)^3 
[1] ~15,42857 (11 8000 

Căn số bậc hai: V10 Số pi 

+ >pi 

> sqrt(10) r 

F11 Ế\ (1) 3.141593 
(1] 3.162278 GưKenn 

(11 11.42478 

Logarit lg, Logarft logt0 

> 1og(10) > 1og10(100) 

302585 1) 2 

Số mũ:e2s° Hàm số lượng giác 
> exp (2.7689) > cos(pi) 

(i] 15.94109 (1) -1 

> 1og10(2+3*p+) 

(i1 1.057848 
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[231546768 





> exp(x/10) 

(1ì 1.221403 1.349859 1.105171 1.648721 
1.491825 1.822119 2.013753 1.822119 
(9) 2.225541 





}+2?+3?)+41+8)=? 
>x <- c(1,2,3,4,5) 
> sum(x^2) 

(1) 55 


> sum(x) 
[1] 42 > exp (cos (x/101) 

(1ì 2.664634 2.599545 2.T04736 2.405079 
>..2 2.511954 2.282641 2.148655 2.282647 
[1] 4 6 210 8 (3) 2.007132 
Tính tổng bình phương Tính tổng bình phương điều chỉnh 
(sum of squares): (adjusted sum of squares): 


h 
sứ 
(x—*) `=; 

= 

> x <- c(1,2,3,4,5} 

> sum( (x-mean (x) ]^2) 

L1) 10 

Trong công thức trên mean(x) là số trung bình của 
Vector x. 





Tính sai số bình phương (mean square): 
WŒx~#)`/n=? 

m 

>x <= c(1,2,3,4,5) 

> sum ( (x=mean (x))^2) /iength (x}) 
[11 2 

Trong công thức trên, length(x) có 
nghĩa là tống số phần tử (elements) 
trong vector x. 








Tính phương sai (variance) 
và độ lệch chuẩn (standard deviation): 


Phương sai: g° =Š( ~#)`/(n-1)=? 


>w <- c(1,2,3,4,5) 


> var(w) 

l1) 2.5 

Độ lệch chuẩn: xjsˆ : 
> sd(x) 

(1) 1.581139 





4.2 Số liệu về ngày tháng 





Trong phân tích thống kê, các số liệu ngày tháng có khi là một vấn để nan 
giải, vì có rất nhiều cách để mô tả các dữ liệu này. Chẳng hạn như 01/02/2003, 
có khi người ta viết 1/2/2003, 01/02/03, 01FEB2003, 2003-02-01, v.v... Thật ra, 
có một qui luật chuẩn để viết số liệu ngày tháng là tiêu chuẩn ISO 8601 (nhưng 
rất ít ai tuân theo!) Theo qui luật này, chúng ta viết: 


2003-02-01 


Lí do đằng sau cách viết này là chúng ta viết số với đơn vị lớn nhất trước, 
rồi dẩn dần đến đơn vị nhỏ nhất. Chẳng hạn như với số “123” thì chúng ta biết 
ngay rằng “một trăm hai mươi ba”: bất đầu là hàng trăm, rối đến hàng chục, 
v.v... Và đó cũng là cách viết ngày tháng chuẩn của R. 





'lpe/fielun heploerg 


> datel <- as.Date("01/02/06", £ormat="$d/$m/$y") 
06/03/01”, £ormat="$y/$m/#d") 





> date2 <- as.Date( 

Chú ý chúng ta nhập hai số liệu khác nhau về thứ tự ngày tháng năm, 
nhưng chúng ta cũng cho biết cụ thể cách đọc bằng %d (ngày), *m (tháng), và 
%y (năm). Chúng ta có thể tính số ngày giữa hai thời điểm: 

> days <- date2-datel 

> days 

Time difference of 28 days 


Chúng ta cũng có thể tạo một dãy số liệu ngày tháng như sau: 


> seq(as.Date ("2005-01-01"), as.Date("2005-12-31"), 
by="month") 





[1] "2005-01-01" "2005-02-01" "2005-03-01" "2005-04-01" 
"2005~05~01" 


[6] " 2005-06-01" "2005-07-01" "2005-08-01" "2005-09-01" 
"2005-10-01" 


[11] "2005-11-01" "2005-12-01" 


> seq(as.Date ("2005-01-01"”), as.Date("2005-12-31"), 
by="2 weeks") 


(1] "2005-01-01" "2005-01-15" "2005-01-29" "2005-02-12" 
"2005-02-26" 


[6] "2005-03-12" "2005-03-26" "2005-04-09" “2005-04-23" 
"2005-05-07 





[11] "2005-05-21" "2005-06-04" "2005-06-18" "2005-07-02" 
"2005-07-16" 


(16] "2005-07-30" "2005-08-13" "2005-08-27" "2005-09-10" 
"2005-09-24" 


[21] "2005-10-08" "2005-10-22" "2005-11-05" "2005-11-19" 
"2005-12-03" 


[26] "2005-12-17" “2005-12-31” 
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4.3 Tạo dãy số bằng hàm seq, rep và gi 
R còn có công dụng tạo ra những dãy số rất tiện cho việc mô phỏng và 
thiết kế thí nghiệm. Những hàm thông thường cho dãy số là seq (sequence), 
rep (repetition) và g1 (generating levels): 
Áp dụng seq 
5 - Tạo ra một vector số từ 1 đến 12: 
> x<- (1:12) 
>x 
(1) 1 2 3 4 5 6 7 8 910 1112 
> seq(12) 
[1] 1 2 3 4 5 6 7 8 9101112 


« - Tạo ra một vector số từ 12 đến 5: 
> x<- (12:5) 
nPt :IẾP, 
[1] 121110 9 8 7 6 5 


> seq(12,7) 
[1] 121110 9 8 7 


Công thức chung của hàm seq là seg(from, to, by= ) 
hay seq(f£rom,to,length.out= ). Cách sử dụng sẽ được minh 
hoạ bằng các ví dụ sau đây: 


« _ Tạo ra một vector số từ 4 đến 6 với khoảng cách bằng 0.25: 
> seq(4, 6, 0.25) 
[1] 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75 6,00 
«_ Tạo ra một vector 10 số, với số nhỏ nhất là 2 và số lớn nhất là 15 
> seq(length=10, from=2, to=15) 


(1] 2.000000 3.444444 4.888889 6.,333333 7.777778 
9,222222 10.666667 12.111111 13.555556 15.000000 


Áp dụng rep 
Công thức của hàm rep là rep(x„ t+imes, ....), trong đó, x là một 
biến số và times là số lần lặp lại. Ví dụ: 
« Tạo ra số 10, 3 lần: 
> rep(10, 3) 
[1] 10 10 10 
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« Tạo ra số 1 đến 4, 3 lần: 
> rep(e(1:4), 3) 
(11)123412341234 
«_ Tạo ra số 1.2, 2.7, 4.8, 5 lần: 
> rep(c(1.2, 2.7, 4.8), 5) 


[1] 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8 
1,2 2,7 4,8 


Áp dụng gl 

g1 được áp dụng để tạo ra một biến thứ bậc (categorical variable), tức 
biến không để tính toán, mà là đếm. Công thức chung của hàm g1 là g1 (n, 
k, length = n*k, labels = 1:n, ordered = FALSE) và cách sử 
dụng sẽ được minh họa bằng vài ví dụ sau đây: 

5 - Tạo ra biến gồm bậc 1 và 2; mỗi bậc được lặp lại 8 lần: 


> g1(2, 8) 
1131111111128 28525222 
Levels: 1 2 


Hay một biến gồm bậc 1, 2 và 3; mỗi bậc được lặp lại 5 lần: 
> g1(3, 5) 

[11111112222233333 

Levels: 1 2 3 


5 __ Tạorabiến gồm bậc 1 và2; mỗi bậc được lặp lại 10 lần (do đó length=20): 
> gl(2, 10, length=20) 
(11)11111111112222222222 
Levels: 1 2 
Hay: 
> gì(2, 2, length=20) 
I1)11232112211221211221122 
Levels: 1 2 

«_ Cho thêm kí hiệu: 
> gl1(2, 5, label=c("C", "T")) 

[11]CCCCCTTTTT 
Levels: CT7 
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« _ Tạo một biến gồm 4 bậc 1, 2, 3, 4. Mỗi bậc lặp lại 2 lần. 
> rep(1:4, c(2,2,2,2)) 
[1111223344 
Cũng tương đương với: 
> rep(1:4, each = 2) 
[1111223344 
„ Với ngày giờ tháng: 
> x <- .leap.seconds[1:3] 
> rep(x, 2) 


[1] "1972-06-30 17:00:00 Pacific Standard Time" 
"1972-12-31 16:00:00 Pacific Standard Time" 


[3] "1973-12-31 16:00:00 Pacific Standard Time" 
"1972-06-30 17:00:00 Pacific Standard Time" 


[5] "1972-12-31 16:00:00 Pacific Standard Time" 
"1973-12-31 16:00:00 Pacific Standard Time" 


> rep(as.POSIXlt(x), rep(2, 3) 


(1] "1972-06-30 1 00 Pacific Standard Time" 
"1972-06-30 17:00:00 Pacific Standard Time" 





[3] "1972-12-31 16:00:00 Pacific Standard Time" 
"1972-12-31 16:00:00 Pacific Standard Time" 


(5] "1973-12-31 16:00:00 Pacific Standard Time" 
"1973-12-31 16:00:00 Pacific Standard Time" 


4.4 Sử dụng R cho các phép tính ma trận 


Như chúng ta biết ma trận (matrix), nói đơn giản, gồm có dòng (row) và 
cột (column). Khi viết A[m, nr], chúng ta hiểu rằng ma trận A có m dòng và 
cột. Trong R, chúng ta cũng có thể thể hiện như thế. Ví dụ: chúng ta muốn tạo 
một ma trận vuông A gồm 3 dòng và 3 cột, với các phần tử (element) 1, 2, 3, 
4, 5, 6, 7, 8, 9, chúng ta viết: 


1 4 7 
A4a=|2 5 8 
3.69 
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Và với R: 
> y <- c(1,2,3,4,5,6,7,8,9) 
> A <- matrix(y, nrow=3) 


>A 

[;1] [z2] [,3] 
[1,] 1 4 7 
[2/] 2 5 8 
3,] 3 6 9 


Nhưng nếu chúng ta lệnh: 
> A <- matrix(y, nrow=3, byrow=TRUE) 


>A 
'Thì kết quả sẽ là: 

[g1] [z2] [,3] 
(1,] 1 hộ 3 
(2,1 4 5 6 
(3/] 7 8 9 


'Tức là một ma trận chuyển vị (transposed matrix). Một cách khác để tạo. 
một ma trận hoán vị là đùng + (). Ví dụ: 

> y <- c(1,2,3,4,5,6,7,8,9) 

> A <- matrix(y, nrow=3) 


>A 

[z1] [z2] ([,3] 
[1,1 3 4 kj 
[2,] 2 5 8 
(3,] 3 6 9 
và B= A có thể diễn tả bằng R như sau: 
> B<- t(A) 
>B 

[;1] (/2] [,3] 
[1,] 1 2 3 
(2,] 4 5 6 
3,] 7 8 9 


Ma trận vô hướng (scalar matrix) là một ma trận vuông (tức số dòng 
bằng số cột), và tất cả các phần tử ngoài đường chéo (off-diagonal elements) là 
0, và phần tử đường chéo là 1. Chúng ta có thể tạo một ma trận như thế bằng 
R như sau: 
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> # tạo ra một ma trận 3 x 3 với tắt cả phẩn tử là 0. 
> A <- matrix(0, 3, 3) 


> # cho các phẩn tử đường chéo bằng 1 
> diag(A) <- 1 


> diag (A) 
[11111 
> # bây giờ ma trận A sẽ là: 
>A 
[1] [;2] ([,3] 
(1/] 1 0 0 
[2,1] l 1 0 
(3,] 6 0 1 


4.4.1 Chiết phần tử từ ma trận 
> ÿ <- c(1,2,3,4,5,6,7,8,9) 
> A <- matrix(y, nrow=3) 


>A 
(;1] (;2] [3] 
(1,] 1 4 7 
(2,1 2 5 8 
[3,] 3 6 9 
> # cột 1 của ma trận A 
> A[,l] 
[11147 
> # cột 3 của ma trận A 
> A3,] 
[1] 789 
> # dòng 1 của ma trận A 
> A[1,] 
11123 
> # dòng 2, cột 3 của ma trận A 
> A[2,3] 
(1] 6 


> # tất cả các dòng của ma trận A, ngoại trừ đòng 2 
> A[-2,] 
[g1] [z2] [,3] 
[1,] 1 4 7 
[2/] 3 6 9 
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> # tất cả các cột của ma trận A, ngoại trừ cột 1 


> A[,-l] 

#]- 0x1 
[1/1 4 7 
[2,1] 5 8 


[3,1] 6 9 


> # xem phẩn tử nào cao hơn 3. 


> A>3 

[z1] [;2] [,3] 
(1,] FALSE TRUE TRUE 
[2,] FALSE TRUE TRUE 
(3,] FALSE TRUE TRUE 


4.4.2 Tính toán với ma trận 


Cộng và trừ hai ma trận. Cho hai ma trận A và B như sau: 


> A <- matrix(1:12, 3, 4) 
>A 

(;1] (;2] [,3] ([,4] 
[1,] 1 4 7 10 
[2/] 2 5 8 11 
[3,] 3 6 9 12 
> B <- matrix(-1:-12, 3, 
>B 

[21] (;2] [,3] (,4] 


(1,] ~ 4 S7 S10 
[2,1 =2 hở =8. =ảt 
(3,1 -3 =6 “8% =¬12 
Chúng ta có thể cộng A+B: 
> C<- AtB 
>€ 

[z1] (;2] [,3] (,4] 
[1,] 0 0 0 0 
ty) 0 0 0 0 
(3,] 0 0 0 0 
Hay A-B: 
>D<- A-B 
>D 

[;1] [z2] [,3] [4] 
[1,„] 2 8 14 20 
(2,1 4 10 16 22 


(3/1 6 12 18 24 


4) 
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Nhân hai ma trận. Cho hai ma trận: 


147 123 
A=|2 s gs| và Đ=|4 5 6 
3.69 789 


Chúng ta muốn tính AB, và có thể triển khai bằng R bằng cách sử dụng 
%*$ như sau: 

> ÿy <- c(1,2,3,4,5,6,7,8,9) 

> A <- matrix(y, nrow=3) 


> B<- t(A) 
> AB <- A%*$B 
> AB 
[g1] [;2] [,3] 


(1,] 66 78 90 

(2,] 78 93 108 

(3,] 90 108 126 

Hay tính BA, và có thể triển khai bằng R bằng cách sử dụng $ *% như sau: 

> BA <- B$*$A 

> BA 

[z1] [s3] (;3) 

[1] 14 32 50 

(2,1 32 77 122 

(3,] 50 122 194 

Nghịch đảo ma trận và giải hệ phương trình. Ví dụ chúng ta có hệ 
phương trình sau đây: 


3x,+4x, =4 
xị+6x; =2 


Hệ phương trình này có thể viết bằng kí hiệu ma trận: AX = Y, trong đó: 


“ft “]} + ng 


Nghiệm của hệ phương trình này là: X = AˆY, hay trong R: 
> A <- matrix(c(3,1,4,6), nrow=2) 

> Y <- matrix(c(4,2), nrow=2) 

> X <- solve(A)$%*$Y 

>xX 
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[,1] 
[1,] 1.1428571 
[2,] 0.1428571 
Chúng ta có thể kiểm tra: 
> 3*X[1,1]+4*X[2,1] 
[1] 4 
Trị số eigen cũng có thể tính toán bằng function eigen như sau: 
> eigen (A) 
$values 
(1) 72 


$vectors 
1] (,21 

[1,] ~0.7071068 =0.9701425 

(2,] -0.7071068 0.2425356 

Định thức (đeterminant). Làm sao chúng ta xác định một ma trận có 
thể đảo nghịch hay không? Ma trận mà định thức bằng 0 là ma trận suy biến 
(singular matrix) và không thể đảo nghịch. Để kiểm tra định thức, R dùng 
lệnh det (): 

> E <- matrix((1:9), 3, 3) 


>E 

[z1] ([,2] [,3] 
t1] 1.4 7 
[2,] 2 5 8 
(3,] 3 6 9 
> đet (E) 
(1] 0 


Nhưng ma trận E sau đây thì có thể đảo nghịch: 
> F <- matrix((1:9)^2, 3, 3) 
>F 
[;1] (;2] [,3] 
(1,] 1 16 49 


[2,1] 4 25 64 
(3,] ạ 36 81 
> det(F) 
[1] -216 
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'Và nghịch đảo của ma trận F (F") có thể tính bằng function so1ve () 
như sau: 


> solve (F) 
[z1] (21 (31 
[1,] 1.291667 -2.166667 0.9305556 
(2,] -1.166667 1.666667 -0.6111111 
(3,] 0.375000 -0.500000 0.1805556 
Ngoài những phép tính đơn giản này, R còn có thể sử dụng cho các phép. 
tính phức tạp khác. Một lợi thế đáng kể của R là phần mềm cung cấp cho 
người sử dụng tự do tạo ra những phép tính phù hợp cho từng vấn để cụ thể. 
Trong vài chương sau, chúng ta sẽ quay lại vấn để này chỉ tiết hơn. 
R có một package Mat ri x chuyên thiết kế cho tính toán ma trận. Bạn đọc 
có thể tải package xuống, cài vào máy, và sử dụng, nếu cẩn. Địa chỉ để tải là: 
http://cran.au.r-project.org/bin/windows/contrib/r-release/ 
Matrix_0.995-8.Zip 
cùng với tài liệu chỉ dẫn cách sử dụng (dài khoảng 80 trang): 
http://cran.au.r-project.org/doc/packages/Matrix.pdf 
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4k: À.. 
Tính toán xác suất 
và mô phỏng (simulation) 








phân tích số liệu và suy luận thống kê đều dựa vào lí thuyết xác suất. Lí 

thuyết xác suất quan tâm đến việc mô tả và thể hiện qui luật phân phối 
của một biến số ngẫu nhiên. “Mô tả” ở đây trong thực tế cũng có nghĩa đơn 
giản là đếm những trường hợp hay khả năng xảy ra của một hay nhiếu biến. 
Chẳng hạn như khi chúng ta chọn ngẫu nhiên 2 đối tượng, và nếu 2 đối tượng 
này có thể được phân loại bằng hai đặc tính như giới tính và sở thích, thì vấn 
để đặt ra là có bao nhiêu tất cả “phối hợp” giữa hai đặc tính này. Hay đối với 
một biến số liên tục như huyết áp, mô tả có nghĩa là tính toán các chỉ số thống 
kê của biến như trị số trung bình, trung vị, phương sai, độ lệch chuẩn, v.v... Từ 
những chỉ số mô tả, lí thuyết xác suất cung cấp cho chúng ta những mỏ hình 
để thiết lập các hàm phân phối cho các biến số đó. Chương này sẽ bàn qua hai 
lĩnh vực chính là phép đếm và các hàm phân phối. 


Xu suất là nến tảng của phân tích thống kê. Tất cả các phương pháp 


5.1 Các phép đếm 

5.1.1 Phép hoán vị (permutation) 

“Theo định nghĩa, hoán vị phần tử là cách sắp xếp ø phần tử theo một thứ 
tự định sẵn. Định nghĩa này khá khó hiểu, ví dụ cụ thể sau sẽ làm rõ định nghĩa 
hơn. Hãy tưởng tượng một trung tâm cấp cứu có 3 bác sĩ (x, y và z), và có 3 bệnh 
nhân (4, b và c) đang ngồi chờ được khám bệnh. Cả ba bác sĩ đếu có thể khám 
bất cứ bệnh nhân a, b hay c. Câu hỏi đặt ra là có bao nhiêu cách sắp xếp bác sĩ - 
bệnh nhân? Để trả lời câu hỏi này, chúng ta xem xét vài trường hợp sau đây: 

« - Bác sĩx có 3 lựa chọn: khám bệnh nhân a, b hoặc c; 

« _ Khibácsĩx đã chọn một bệnh nhân rối, thì bác sĩ y có hai lựa chọn còn lại; 

:#— 
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5 - Và sau cùng, khi 2 bác sĩ kia đã chọn, bác sĩ z chỉ còn 1 lựa chọn. 

« _ Tổng cộng, chúng ta có 6 lựa chọn. 

Một ví dụ khác, trong một buổi tiệc gồm 6 bạn, hỏi có bao nhiêu cách sắp. 
xếp cách ngồi trong một bàn với 6 ghế? Qua cách lí giải của ví dụ trên, đáp số 
là: 6.5.4.3.2.1 = 720 cách. (Chú ý dấu "” có nghĩa là dấu nhân hay tích số). Và 
đây chính là phép đếm hoán vị. 








Chúng ta biết rằng 3! = 3.2.1 = 6, và 0!=1. Nói chung, công thức tính hoán 
vị cho một số ở là: m!= n(w~1)(n—2)(n~3)x...x1. Trong R cách tính này rất 
đơn giản với lệnh prod()_ như sau: 
»  Tìm3! 
> prod(3:1) 
[1] 6 

» Tìm 101 
> prod(10:1) 
[1] 3628800 


«Tìm 10.9.8.7.6.5.4 
> prod(10:4) 
(1] 604800 


5» Tìm (10.9.8.7.6.5.4) / (40.39.38.37.36) 
> prod(10:4) / prod(40:36) 
(1] 0.007659481 


5.1.2 Tổ hợp (combination) 


'Tổ hợp nở phần tử chập k là mọi tập hợp con gồm k phần tử của tập hợp 0 
phần tử. Ví dụ cụ thể sau sẽ giúp cho chúng ta hiểu rõ vấn để này: Cho 3 người 
(hãy cho là A, B, và C) ứng viên vào 2 chức chủ tịch và phó chủ tịch, hỏi: có 
bao nhiêu cách để chọn 2 chức này trong số 3 người đó. Chúng ta có thể tưởng, 
tượng có 2 ghế mà phải chọn 3 người: 





CÁCH CHỌN. CHỦ TỊCH. PHÓ CHỦ TỊCH. 
































all >|œ|¬ 
n|s|¬|>|s»|> 
œ|nl>|lnal>|s= 
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Như vậy có 6 cách chọn. Nhưng chú ý rằng cách chọn 1 và 2 trong thực tế 
chỉ là 1 cặp, và chúng ta chỉ có thể đếm là 1 (chứ không là 2 được). Tương tự, 
3 và 4, 5 và 6 cũng chỉ có thể đếm là 1 cặp. Tổng cộng, chúng ta có 3 cách chọn 
3 người cho 2 chức vụ. Đáp số này được gọi là tổ hợp. 


“Thật ra tổng số lần chọn có thể tính bằng công thức sau đây: 


"5. Ồ 
2jJ 2-2)! 2 


Nói chung, số lần chọn k người từ n người là: 











Công thức này cũng có khi viết là Cƒ thay vì Bị Với R, phép tính này 


rất đơn giản bằng hàm choose (n, k). Sau đây là vài ví dụ minh họa: 


«Ò Tìm 
2 


> choose(5, 2) 

(1] 10 

« _ Tìm xác suất cặp A và B trong số 5 người được đắc cử vào hai chức vụ: 
> 1/choose(5, 2) 

_[HH] 0.1 





5.2 Biến số ngẫu nhiên và hàm phân phối 
Phần lớn phân tích thống kê dựa vào các luật phân phối xác suất để suy 
luận. Nếu chúng ta chọn ngẫu nhiên 10 bạn trong một lớp học và ghi nhận 
chiểu cao và giới tính của 10 bạn đó, chúng ta có thể có một dãy số liệu như sau: 
15]557]18815851551Z45|E7:IJfST]IS52]51 
Giới tính. Nữ Nữ Nam | Nữ Nữ Nữ |Nam Nam Nữ | Nam 
Chiều cao (cm) | 156 ¡ 160 175 | 145 165 158 | 170 167 - 178 | 155 











Nếu tính gộp chung lại, chúng ta có 6 bạn gái và 4 bạn trai. Nói theo phần 
trăm, chúng ta có 60% nữ và 40% nam. Nói theo ngôn ngữ xác suất, xác suất 
nữ là 0.6 và nam là 0.4. 
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Về chiếu cao, chúng ta có giá trị trung bình là 162.9 cm, với chiếu cao thấp 
nhất là 145 cm và cao nhất là 178 cm. 





HA mới MATĐĐ  TOMNDY  ĐNMBẠC  L MÔPHỜNG 


Chuẩn dñerw(x, mean, sđ) |pnorm(q, mean, ad) [qnorm(p, mean, ađ) | rnorm(n, mean, sđ) 





Nhịphân |dPinsmt&, n.pì  [pbinem(g, n„pì  |biner (p, n„ pì |zbinaem(, n„ prob) 





Poisson  |dpoistk, iambda) |ppois(q, lambda) |qpots(p, lambda) |zpots(n, lambda) 
Uniform  |đuniftx, mìn, max) |panif(q, mứn, max) |qunif(p, min, max) |runif(n, min, max) 


Negative |dnbtnemG, x, pì |pabinsm(q, k, pì |qrbinem (p,k,prob) |zbinzm(n, n„ preb) 
































binomial 

Beta đheta(x, shapel, |pbsta(q, shapsl, |qbetatp, shapel, | roeta(n, shapel, 
shapa2) ahapaZ) nhaps2) shaps2) 

Gamma |dỹa=ma(x, shape, |gamma(g, ahaps, |qgamma(p, ahape, |rgamma(n, shape, 
rate, ®caie) rate, 4cale) rate, eeale) raLe, acaìe} 

Geometric 439om(%, p) Pgeom(q, P) 4gsom(p, prob) rgeom(n, prob). 

TÍCH LŨY. MÔ PHÒNG. 

TH Hai MẬT ĐỘ. ĐỊNH BẬC 

Exponential |dexp(x, ratel  |pexplq, rate)  |qexpip, rate) - |rexptn, rate) 

Weibul |dnszetx, mean, sdi |pooralq, mean, sdi |4normfp, mean, 44) |znozn(n, mean, s4) 

Cauchy — |desschytx, peauchy (4, 4cAuchy(p„ xeauchy (n, 
location, scale) |lecation, seale) |location, scale) |location, seale) 

F df@y dfì, df2) |pflg, 4f1, 4f2) |qftp, đfì, để2) |rf(m, đểì, để2) 

T1 dt, dể) ptíg, 4) đrfm, để) xtn, đF) 

C3quared |dehisgtx, df) - [pchi(q, đO 4chisgtp, đf) — |zehisgta, đf) 


Chú thích: Trong bảng trên, df = degrees of freedome (bắc tự do); prob = probability 
(xác suất); n = sample size (số lượng mẫu). Các thông số khác có thế tham khảo thêm. 
cho từng luật phân phối. Riêng các luật phân phối F, t, Chỉ-squared còn có một thông 
số khác nữa là non-centrality parameter (ncp) được cho số 0. Tuy nhiên người sử dụng. 


có thể cho một thông số khác thích hợp, nếu cần. 

Nói theo ngôn ngữ thống kê xác suất, biến số giới tính và chiếu cao là hai biển 
sổ ngẫu nhiên (random variable). Ngẫu nhiên là vì chúng ta không đoán trước 
một cách chính xác các giá trị này, nhưng chỉ có thể đoán giá trị tập trung, giá trị 
trung bình, và độ dao động của chúng. Biến giới tính chỉ có hai "giá trị” (nam hay: 
nữ), và được gọi là biến không liên tục, hay biến rời rạc (discrete variable), hay biến 
thứ bậc (categorical variable). Còn biến chiểu cao có thể có bất cứ giá trị nào từ 
thấp đến cao, và do đó có tên là biến liên tục (continuous variable). 


'lpe/fielun heploerg 


Khi nói đến “phân phối” (hay distribution) là để cập đến các giá trị mà 
biến số có thể có. Các hàm phân phối (distribution function) là hàm nhằm mô. 
tả các biến số đó một cách có hệ thống. “Có hệ thống” ở đây có nghĩa là theo 
một mô hình toán học cụ thể với những thông số cho trước. Trong xác suất 
thống kê có khá nhiều hàm phân phối, và ở đây chúng ta sẽ xem xét qua một 
số hàm quan trọng nhất và thông dụng nhất: đó là phân phối nhị phân, phân 
phối Poisson, và phân phối chuẩn. Trong mỗi luật phân phối, có 4 loại hàm. 
quan trọng mà chúng ta cẩn biết: 

« _ Hàm mật độ xác suất (probability density đistribution); 

+ _ Hàm phân phối tích lũy (cumulative probability distribution); 
« _ Hàm định bậc (quantile); và 

« _ Hàm mô phỏng (simulation). 


R có những hàm sẵn trên có thể ứng dụng cho tính toán xác suất. Tên mỗi 
hàm được gọi bằng một tiếp đấu ngữ để chỉ loại hàm phân phối, và viết tắt 
tên của hàm đó. Các tiếp đầu ngữ là d (chỉ distribution hay xác suất), p (chỉ 
cumulative probability, xác suất tích lũy), q (chỉ định bậc hay quantile), và r 
(chỉ random hay số ngẫu nhiên). Các tên viết tắt là ao rm (normal, phân phối 
chuẩn), binem (binomial, phân phối nhị phân), pois (Poisson, phân phối 
Poisson), v.v... 2 bảng trên đây tóm tắt các hàm và thông số cho từng hàm. 


5.3 Các hàm phân phối xác suất (probability distribution function) 

5.3.1 Hàm phân phối nhị phân (Binomial distribution) 

Như tên gọi, hàm phân phối nhị phân chỉ có hai giá trị nam/nữ, 
sống/chết, có/không, v.v... Hàm nhị phân được phát biểu bằng định lí như 
sau: Nếu một thử nghiệm được tiến hành n lần, mỗi lần cho ra kết quả hoặc 
là thành công hoặc là thất bại, và gồm xác suất thành công được biết trước là 
p, thì xác suất có k lần thử nghiệm thành công là: P(k in, p)= Cÿp* (I— p)”*, 
trong đó k = 0, 1, 2,..., n. Để hiểu định lí đó rõ ràng hơn, chúng ta sẽ xem qua 
vài ví dụ sau đây. 

Ví dụ 1: Hàm mật độ nhị phân (Binomial đensity probability function). 
Trong ví dụ trên, lớp học có 10 người, trong đó có 6 nữ. Nếu 3 bạn được chọn 
một cách ngẫu nhiên, xác suất mà chúng ta có 2 bạn nữ là bao nhiêu? Chúng 
ta có thể trả lời câu hỏi này một cách tương đối thủ công bằng cách xem xét tất 
cả các trường hợp có thể xảy ra. Mỗi lần chọn có 2 khả năng (nam hay nữ), và 
3 lần chọn, chúng ta có 2` = 8 trường hợp như sau. 
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BẠN BẠN?  BẠN3 | "XÁC SUẤT 
Nam Nam Nam (0.4)(0.4)(0.4) = 0.064 
Nam Nam Nữ (04)(0.4)(0.6) = 0.096 
Nam Nữ Nam (04)(0.6)(04) = 0.096 
Nam Nữ Nữ (04)(06)(06) =0.144. 

Nữ Nam Nam (06)(0.4)(04) = 0.096 

Nữ Nam Nữ (0.6)(0.4)(0.6) = 0.144 

Nữ | Nữ | Nam (06)(0.6)(0.4) = 0.144 

Nữ Nữ. Nữ (06)(0.6)(0.6) = 0.216 
Tất cả các trường hợp. 1.000 








Chúng ta biết trước rằng trong nhóm 10 học sinh có 6 nữ, và do đó, xác 
suất nữ là 0.60. (Nói cách khác, xác suất chọn một bạn nam là 0.4). Do đó, 
xác suất mà tất cả 3 bạn được chọn đếu là nam giới là: 0.4 x 0.4 x 0.4 = 0.064. 
Trong bảng trên, chúng ta thấy có 3 trường hợp mà trong đó có 2 bạn gái: đó 
là trường hợp Nam-Nữ-Nữ, Nữ-Nữ-Nam, và Nữ-Nam-Nữ, cả 3 đểu có xác 
suất 0.144. Cho nên, xác suất chọn đúng 2 bạn nữ trong số 3 bạn được chọn là 
3x0.144 = 0.432. 

Trong R, có hảm bi nom (k, na, p) có thể giúp chúng ta tính công thúc 
P(k|n,p)= Cƒp*(L—p)”” một cách nhanh chóng. Trong trường hợp trên, 
chúng ta chỉ cần đơn giản lệnh: 

> dbinom(2, 3, 0.60) 








(1] 0.432 


Ví dụ 2: Hàm nhị phân tích lũy (Cumulative Binomial probability 
distribution). Xác suất thuốc chống loãng xương có hiệu nghiệm là khoảng 
70% (tức là p = 0.70). Nếu chúng ta điểu trị 10 bệnh nhân, xác suất có tối thiểu 
8 bệnh nhân với kết quả tích cực là bao nhiều? Nói cách khác, nếu gọi X là số 
bệnh nhân được điểu trị thành công, chúng ta cần tìm P(X > 8) = ? Để trả lời 
câu hỏi này, chúng ta sử dụng hàm pbinom(k, n„ p). Xin nhắc lại rằng 
hàm pbi nem (k, n„ p) cho chúng ta P(X< k). Do đó, P(X > 8) = 1 - P(X <7). 
Cho nên, đáp số bằng R cho câu hỏi là: 

> 1-pbinom(7, 10, 0.70) 

[1] 0.3827828 

Ví dụ 3: Mô phỏng hàm nhị phân: Biết rằng trong một quần thể dân số có 
khoảng 20% người mắc bệnh cao huyết áp; nếu chúng ta tiến hành chọn mẫu. 
1000 lần, mỗi lần chọn 20 người trong quần thể đó một cách ngẫu nhiên, sự phân 
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phối số bệnh nhân cao huyết áp sẽ như thế nào? Để trả lời câu hỏi này, chúng ta 
có thể ứng dụng hàm rbinom (n,k„p) trong R với những thông số như sau: 

> b <- rbinom(1000, 20, 0.20} 

"Trong lệnh trên, kết quả mô phỏng được tạm thời chứa trong đối tượng 
tên là b. Để biết b_ có gì, chúng ta đếm bằng lệnh table: 

> table(b) 

b 

0 1 2 3 4 5 6 7 8 910 
6 45 147 192 229 169 105 68 23 13 3 

Dòng số liệu thứ nhất (0, 5, 6, ..., 19) là số bệnh nhân mắc bệnh 
cao huyết áp trong số 20 người mà chúng ta chọn. Dòng số liệu thứ hai cho 
chúng ta biết số lần chọn mẫu trong 1000 lần xảy ra. Do đó, có 6 mẫu không 
có bệnh nhân cao huyết áp nào, 45 mẫu với chỉ 1 bệnh nhân cao huyết áp, v.v... 
Có lẽ cách để hiểu là vẽ đồ thị các tấn số trên bằng lệnh hi st như sau: 

> hiat(b, main= "Number of hypertensive patients") 

Trong lệnh trên b là biến số thể hiện cao huyết áp. Kết quả của lệnh trên là 
một biểu đồ thể hiện tần số bệnh nhân cao huyết áp như sau (xem biểu đổ 1). 

Qua biểu đồ trên, chúng ta thấy xác suất có 4 bệnh nhân cao huyết áp 
(trong mỗi lần chọn mẫu 20 người) là cao nhất (22.9%). Điểu này cũng có thể 
hiểu được, bởi vì tỉ lệ cao huyết áp là 20%, cho nên chúng ta kì vọng rằng trung 
bình 4 người trong số 20 người được chọn phải là cao huyết áp. Tuy nhiên, 
điểu quan trọng mà biểu đồ trên thể hiện là có khi chúng ta quan sát đến 10 
bệnh nhân cao huyết áp dù xác suất cho mẫu này rất thấp (chỉ 3/1000). 
Nmber of hypertensive patlentz 
200 
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Biểu đồ 1. Phân phối số bệnh nhân cao huyết áp. 
trong số 20 người được chọn ngẫu nhiên trong một quần thể 
gồm 20% bệnh nhân cao huyết áp, và chọn mẫu được lặp lại 1000 lần.. 
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Ví dụ 4: Ứng dụng hàm phân phối nhị phân: Hai mươi khách hàng được 
mời uống hai loại bia A và B, và được hỏi họ thích bia nào. Kết quả cho thấy 
16 người thích bia A. Vấn để đặt ra là kết quả này có đủ để kết luận rằng bia 
A được nhiếu người thích hơn bia B, hay là kết quả chỉ là do các yếu tố ngẫu 
nhiên gây nên? 

Chúng ta bắt đầu giải quyết vấn để bằng cách giả thiết rằng nếu không có 
khác nhau, thì xác suất p = 0.50 thích bia A và q = 0.5 thích bia B. Nếu giả thiết 
này đúng, thì xác suất mà chúng ta quan sát 16 người trong số 20 người thích 
bia A là bao nhiêu. Chúng ta có thể tính xác suất này bằng R rất đơn giản: 

> 1~ pbinom(15, 20, 0.5) 

(1] 0.005908966 


Đáp số là xác suất 0.005 hay 0.5%. Nói cách khác, nếu quả thật hai bia 
giống nhau thì xác suất mà 16/20 người thích bia A chỉ 0.5%. Tức là, chúng ta 
có bằng chứng cho thấy khả năng bia A quả thật được nhiều người thích hơn 
bia B, chứ không phải do yếu tố ngẫu nhiên. Chú ý, chúng ta dùng 15 (thay 
vì 16), là bởi vì P(X > 16) = 1 - P(X < 15). Mà trong trường hợp ta đang bàn, 
P(X< 15) =pbinom(15, 20, 0.5). 


5.3.2 Hàm phân phối Poisson (Poisson distribution)} 


Hàm phân phối Poisson, nói chung, rất giống với hàm nhị phân, ngoại trừ 
thông số p thường rất nhỏ và „ thường rất lớn. Vì thế, hàm Poisson thường 
được sử dụng để mô tả các biến số rất hiếm xảy ra (như số người mắc ung thư 
trong dân số chẳng hạn). Hàm Poisson còn được ứng dụng khả nhiều và thành 
công trong các nghiên cứu kĩ thuật và thị trường như số lượng khách hàng đến 
một nhà hàng mỗi giờ. 


Ví dụ 5: Hàm mật độ Poisson (Poisson đensity probability function). 
Qua theo đối nhiều tháng, người ta biết được tỉ lệ đánh sai chính tả của một 
thư kí đánh máy. Tính trung bình cứ khoảng 2.000 chữ thì thư kí đánh sai 1 
chữ. Hỏi xác suất mà thư kí đánh sai chính tả 2 chữ, hơn 2 chữ là bao nhiêu? 

Vì tấn số khá thấp, chúng ta có thể giả định rằng biến số “sai chính tả” 
(tạm đặt tên là biến số X) là một hàm ngẫu nhiên theo luật phân phối Poisson. 
Ở đây, chúng ta có tỉ lệ sai chính tả trung bình là 1(A. = 1). Luật phân phối 
Poisson phát biểu rằng xác suất mà X = k, với điều kiện tỉ lệ trung bình 2, : 
e*At 

k' 





P(X=k|2)= 
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Do đó, đáp số cho câu hỏi trên là: P(X =2|2=1) ` 


có thể tính bằng R một cách nhanh chóng hơn bằng hàm dpoi s như sau: 





=0.1839. Đáp số này 


> dpois(2, 1) 
[1] 0.1839397 
Chúng ta cũng có thể tính xác suất sai 1 chữ: 
> dpois(1, 1) 
[1] 0.3678794 
Và xác suất không sai chữ nào: 
> dpois(0, 1) 
[1] 0.3678794 
Chú ý trong hàm trên, chúng ta chỉ đơn giản cung cấp thông số k = 2 và 
À= 1. Trên đây là xác suất mà thư kí đánh sai chính tả đúng 2 chữ. Nhưng 
xác suất mà thư kí đánh sai chính tả hơn 2 chữ (tức 3, 4, 5,... chữ) có thể ước 
tính bằng: 
P(X >2)= P(X =3)+ P(X =4)+ P(X =5)+... 
=1~P(X <2) 
= 10.3678 - 0.3678 - 0.1839 
=0.08 
Bằng R, chúng ta có thể tính như sau: 
# P(X< 2) 


> ppois(2, 1) 
(1] 0.9196986 


# 1-P(X< 2) 


> 1-ppois(2, 1) 
[1] 0.0803014 


5.3.3 Hàm phân phối chuẩn (Normal distribution) 

Hai luật phân phối mà chúng ta vừa xem xét trên đây thuộc vào nhóm 
phân phối áp dụng cho các biến số phi liên tục (discrete distributions), mà 
trong đó biến số có những giá trị theo bậc thứ hay thể loại. Đối với các biến 
số liên tục, có vài luật phân phối thích hợp khác, mà quan trọng nhất là 
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phân phối chuẩn. Phân phối chuẩn là nến tảng quan trọng nhất của phân tích 
thống kê. Có thể nói hấu hết lí thuyết thống kẻ được xây dựng trên nến tảng 
của phân phối chuẩn. Hàm mật độ phân phối chuẩn có hai thông số: trung 
bình w và phương sai ø? (hay độ lệch chuẩn ø). Gọi X là một biến số (như 
chiếu cao chẳng hạn), hàm mật độ phân phối chuẩn phát biểu rằng xác suất 
mà X = xlà: 





#(X=rlz)=/6)= 2. sự TL K— z1] 


Ví dụ 6: Hàm mật độ phân phối chuẩn (Normal density probability 
function). Chiểu cao trung bình hiện nay ở phụ nữ Việt Nam là 156 cm, với 
độ lệch chuẩn là 4.6 cm. Cũng biết rằng, chiểu cao này tuân theo luật phân 
phối chuẩn. Với hai thông số w = 156, ø = 4.6, chúng ta có thể xây dựng một 
hàm phân phối chiểu cao cho toàn bộ quần thể phụ nữ Việt Nam, và hàm này. 
có hình dạng như sau: 


Probabllty distributlon of height In Vietnamese women 
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Biểu đồ 2. Phân phối chiều cao ở phụ nữ Việt Nam 
với trung bình 156 cm và đồ lệch chuẩn 4.6 cm. 
Trục hoành là chiều cao và trục tung là xác suất cho mỗi chiếu cao. 
Biểu đồ trên được vẽ bằng hai lệnh sau đây. Lệnh đầu tiên nhằm tạo ra 
một biến số hei ght có giá trị 130, 131, 132, ..., 200 cm. Lệnh thứ hai là vẽ biểu. 
đồ với điểu kiện trung bình là 156 cm và độ lệch chuẩn là 4.6 cm. 
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> height <- seq(130, 200, 1) 
> plot(height, dnorm(height, 156, 4.6), 
type="1", 
y1ab~"£ (height) ", 
xlab="Height", 
main="Probability distribution of height in 
Vietnamese women") 
Với hai thông số trên (và biểu đố), chúng ta có thể ước tính xác suất cho 
bất cứ chiều cao nào. Chẳng hạn như xác suất một phụ nữ Việt Nam có chiểu. 
cao 160 cm là: 


P(X= 160 | ụ=156, ø=4.6) = _ exp (160-156) 
ho 462x31416 2(4.6) 
=00594 


Hàm dnorm(x„ mean, sd) trong R có thể tính toán xác suất nảy cho 
chúng ta một cách gọn nhẹ: 

> dnorm(160, mean=l56, sd=4.6) 

[1] 0.05942343 


(Đúng ra theo lí thuyết, xác suất phải là 0, nhưng đây là một vấn để lí 
thuyết mà chúng ta sẽ không bàn ở đây). 


Hàm xác suất chuẩn tích lũy (cumulative normal probability function). 
Vì chiếu cao là một biến số liên tục, trong thực tế chúng ta ít khi nào muốn tìm 
xác suất cho một giá trị cụ thể x, mà thường tìm xác suất cho một khoảng giá 
trị a đến b. Chẳng hạn như chúng ta muốn biết xác suất chiếu cao tử 150 đến 
160 cm (tức là P(160 < X < 150), hay xác suất chiểu cao thấp hơn 145 cm, tức 
P(X < 145). Để tìm đáp số các câu hỏi như thế, chúng ta cần đến hàm xác suất 
chuẩn tích lũy, được định nghĩa như sau: 








P(a<X<b)= ` /(x)d 
Vì thế, P(160 < X < 150) chính là diện tích tính từ trục hoành = 150 
đến 160 của biểu đổ 2. Trong R có hàm pnorm(x, mean, sd) 
dùng để tính xác suất tích lãy cho một phân phối chuẩn rất có ích. 


pnorm (a, mean, sd) = Ƒ&)œ& = P(X < a| mean, sd) 
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Chẳng hạn như xác suất chiểu cao phụ nữ Việt Nam bằng hoặc thấp hơn 
150 cm là 9.6%: 

> pnorm(150, 156, 4.6) 

[1] 0.0960575 

Hay xác suất chiểu cao phụ nữ Việt Nam bằng hoặc cao hơn 165 cm là: 

> 1-pnorm(164, 156, 4.6) 

[1] 0.04100591 

Nói cách khác, chỉ có khoảng 4.1% phụ nữ Việt Nam có chiểu cao bằng 
hay cao hơn 165 cm. 

Ví dụ 7: Ứng dụng luật phân phối chuẩn: Trong một quần thể, chúng ta 
biết rằng áp suất máu trung bình là 100 mmHg và độ lệch chuẩn là 13 mnmHg, 
hỏi: có bao nhiêu người trong quần thể này có áp suất máu bằng hoặc cao hơn 
120 mmHg? Câu trả lời bằng R là: 

> 1-pnorm(120, mean=100, sd=13) 

(1] 0.0619679 

'Tức khoảng 6.2% người trong quần thể này có áp suất máu bằng hoặc cao 
hơn 120 mmHg. 








5.3.4 Hàm phân phối chuẩn chuẩn hóa 
(Standardized Normal distribution) 


Một biến X tuân theo luật phân phối chuẩn với trung bình II và phương 
sai Ø° thường được viết tắt là: 


X~Núu,Ø°) 


Ở đây u và ơ? tùy thuộc vào đơn vị đo lường của biến số. Chẳng hạn như 
chiếu cao được tính bằng cm (hay m), huyết áp được đo bằng mmHg, tuổi 
được đo bằng năm, v.v... cho nên đôi khi mô tả một biến số bằng đơn vị gốc rất 
khó so sánh. Một cách đơn giản hơn là chuẩn hóa (standardized) X sao cho số 
trung bình là 0 và phương sai là 1. Sau vài thao tác số học, có thể chứng minh. 
cách biến đổi X để đáp ứng điếu kiện trên là: 


z.*-uU 
ơ 


Nói theo ngôn ngữ toán: nếu X ~ N(t , Ø°), thì (X - H)/ø?~ N(0, 1). Như 
vậy qua công thức trên, Z thực chất là độ khác biệt giữa một số và trung bình 
tính bằng số độ lệch chuẩn. Nếu Z = 0, chúng ta biết rằng X bằng số trung bình 
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H. Nếu Z = -1, chúng ta biết rằng X thấp hơn II đúng 1 độ lệch chuẩn. Tương 
tự, Z = 2.5, chúng ta biết rằng X cao hơn i đúng 2.5 độ lệch chuẩn, v.v... 

Biểu đổ phân phối chiểu cao của phụ nữ Việt Nam có thể mô tả bằng một 
đơn vị mới, đó là chỉ số z như sau: 


Probability distribution of height in Vietnamese women. 
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Biểu đồ 3. Phân phối chuẩn hóa chiều cao ở phụ nữ Việt Nam. 


Biểu đổ 3 được vẽ bằng hai lệnh sau đây: 
> height <- seqg(~-4, 4, 0.1) 
> plot (height, dnorm(height, 0, 1), 





type="1", 
ylab="£ (z) ", 
xlab="z", 


main="Probability distribution o£ height in 

Vietnamese women ") 

Với phân phối chuẩn hoá, chúng ta có một tiện lợi là có thể dùng nó để 
mô tả và so sánh mật độ phân phối của bất cứ biến nào, vì tất cả đều được 
chuyển sang chỉ số z. 

Trong biểu đồ trên, trục tung là xác suất z và trục hoành là biến số z. 
Chúng ta có thể tính toán xác suất z nhỏ hơn một hằng số (constant) nào đó 
bằng R. Ví dụ, chúng ta muốn tìm P(z < -1.96) = ? cho một phân phối mà 
trung bình là 0 và độ lệch chuẩn là 1. 
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> pnorm(~-1.96, mean=U, sd=1l) 
[1] 0.02499790 

Hay P(z < 1.96) =? 

> pnorm(1.96, mean=0, sd=l) 
[1] 0.9750021 

Do đó, P(-1.96 < z < 1.96) chính là: 
> pnorm(1.96) - pnorm(~-1.96) 
[1] 0.9500042 


Nói cách khác, xác suất 95% là z nằm giữa -1.96 và 1.96. (Chủ ý trong lệnh 
trên chúng ta không cung cấp mean=0,  sd=1, bởi vì trong thực tế, pnozm 
giá trị mặc định (default value) của thông số mean là 0 và sd là 1). 


Ví dụ 6 (tiếp tục): Xin nhắc lại để tiện việc theo dõi, chiểu cao trung bình 
ở phụ nữ Việt Nam là 156 cm và độ lệch chuẩn là 4.6 cm. Do đó, một phụ 
nữ có chiểu cao 170 em cũng có nghĩa là z = (170 - 156) / 4.6 = 3.04 độ lệch 
chuẩn, và tỉ lệ các phụ nữ Việt Nam có chiếu cao cao hơn 170 cm là rất thấp, 
chỉ khoảng 0.1%. 

®T1=pnorm(3:04)| 


HH]! 0.001182891 


"Tìm định lượng (quantile) của một phân phối chuẩn. Đôi khi chúng ta. 
cần làm một tính toán đảo ngược. Chẳng hạn như chúng ta muốn biết: nếu 


xác suất Z nhỏ hơn một hằng số z nào đó cho trước bằng p, thì z là bao nhiêu? 
Diễn tả theo kí hiệu xác suất, chúng ta muốn tìm z trong nếu: 








P(Z<z)=p 


Để trả lời câu hỏi này, chúng ta sử dụng hàm qnorm(p, mean=, sđ=). 

Ví dụ8: Biết rằng Z ~ N(0, 1) và nếu P(Z < z) = 0.95, chúng ta muốn tìm z. 

> qnorm(0.95, mean=0, sd=l) 

(1] 1.644854 

Hay P(Z < z) = 0.975 cho phân phối chuẩn với trung bình 0 và độ lệch. 
chuẩn 1: 

> qnorm(0.975, mean=0, sd=1) 


[1] 1.959964 





'Rlpe/fielun heploerg 


5.3.5 Hàm phân phối t, F và x2 

Các hàm phân phối t, F và z° trong thực tế là hàm của hàm phân phối 

chuẩn. Mối liên hệ và cách tính các hàm này có thể được mô tả bằng vài ghỉ 

chú sau đây: 

+ Phân phối Khi bình phương (x°). Phân phối +? xuất phát từ tổng 
bình phương của một biến phân phối chuẩn. Nếu x, ~ N(0, 1), và 
gọi w = 3 x? , thì w tuân theo luật phân phối Khi bình phương với bậc 

mỉ 
tự đo nở (thường viết tắt là œ£). Nói theo ngôn ngữ toán, ứ ~ Z}. 
Ví dụ 9: Tìm xác suất của một biến Khi bình phương, do đó, chỉ cần 
hai thông số w và n. Chẳng hạn như nếu chúng ta muốn tìm xác suất 
P(u=21, df=13), chỉ đơn giản dùng hàm pch i sz như sau: 
> dchisq(21, 13) 

_——til 87 ———=— = —Ì 
Tìm xác suất mà một biến số nhỏ hơn 21 với bậc tự do 13 dí. Tức là 
tìm P(w < 21 | df=13) = ? 
> pchisq(21, 13) 

(1] 0.9270714 

Cũng có thể nói kết quả trên cho biết P(z‡ < 21) = 0.927. 

Tìm quantile của một trị số tương đương với 90% của một phân phối 
` với 15 bậc tự do: 

> qchisq(0.95, 15) 

[1] 24.99579 

Nói cách khác, P(Z) < 24.99) = 0.95, 

Phi trung tâm (Non-centrality). Chú ý trong định nghĩa trên, phân 
phối x? xuất phát từ tổng bình phương của một biến phân phối chuẩn 
có trung bình 0 và phương sai 1. Nhưng nếu một biến phân phối 
chuẩn có trung bình không phải là 0 và phương sai không phải là 1, thì 
chúng ta sẽ có một phân phối Khi bình phương phi trung tâm. Nếu. 
x,~ Núu, 1) và đặt „ = Š„ „ thì w tuân theo luật phân phối Khi bình 








= 
phương phi trung tâm với bậc tự do n và thông số phi trung tâm. 
(non-centrality parameter) À như sau: 


A=Š 
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Và kí hiệu là w~ z¿;. Có thể nói rằng, trung bình của ứ là n+À, và 
phương sai của w là 2(n+22.). 

'Tìm xác suất mà # nhỏ hơn hoặc bằng 21, với điểu kiện bậc tự do là 13 
và thông số non-centrality bằng 5.4: 

> pchisq(21, 13, 5.4) 

[1] 0.6837649 


Tức là, P( ZỶ ,„< 21) = 0.684. 


ma 
Tìm quantile của một trị số tương đương với 50% của một phân phối 
3 với 7 bậc tự do và thông số non-centrality bằng 3. 

> qchisq(0.5, ?, 3) 

[1] 9.180148 


Do đó, P(Zj, < 9.180148) = 0.50 


» _ Phân phối t (t distribution). Chúng ta vừa biết rằng nếu X ~ N(M, s°) 
thì (X - M)/Ø`~ N(0, 1). Nhưng phát biểu đó đúng (hay chính xác) khi 
chúng ta biết phương sai Ø'. Trong thực tế, ít khi nào chúng ta biết 
chính xác phương sai, mà chỉ ước tính từ số liệu thực nghiệm. Trong 
trường hợp phương sai được ước tính từ số liệu nghiên cứu, và hãy gọi 
ước tính này là s, thì chúng ta có thể phát biểu rằng: (X - H)/s? ~ (0, v), 
trong đó v là bậc tự do. 

Ví dụ 10: Tìm xác suất mà x lớn hơn 1, trong biến theo luật phân phối 
t với 6 bậc tự do: 

> 1-pt(1.1, 6) 

[1] 0.1567481 

Tức là, P(t, > 1.1) = 1 - P(t,< 1.1) = 0.157. 

Tìm định lượng của một trị số tương đương với 95% của một phân 
phối t với 15 bậc tự do: 

> qt(0.95, 15) 

[1] 1.753050 

Nói cách khác, P(t,„ < 1.75035) = 0.95. 

» _ Phân phối F. Tỉ số giữa hai biến số theo luật phân phối x° có thể chứng 
minh là tuân theo luật phân phối F. Nói cách khác, nếu w ~ Z‡ và v~ Z4, 
thì v ~ F,„ trong đó ø là bậc tự do tử số (numerator degrees of 
freedom) và rm là bậc tự do mẫu số (denominator degrees of freedom). 
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Ví dụ 11: Tìm xác suất mà một trị số F lớn hơn 3.24, biết rằng biến 
số đó tuân theo luật phân phối F với bậc tự do 3 và 15 df và thông số 
non-centrality 5: 

> 1-pf(3.24, 3, 15, 5) 

(1] 0.3558721 

Do đó, P(, „„ „ > 3.24) = 1 - P(, ,„, > 3.24) = 0.355338. 

Với bậc tự do 3 và 15, tìm C sao cho P(E, ,. > C) = 0.05. Lời giải của R là: 
> qf(1-0.05, 3, 15) 

(1) 3.287382 

Nói cách khác, 

P(E, „> 3.287382) = 1 - P(F, „> 3.287382) 


=1-0.95=0./05. 


" 








5.4 Mô phỏng (simulation) 

Trong phân tích thống kê, đôi khi vì hạn chế số mẫu chúng ta khó có 
thể ước tính một cách chính xác các thông số, và trong trường hợp bất định 
đó, chúng ta cẩn đến mô phỏng để biết được độ dao động của một hay nhiều 
thông số. Mô phỏng thường dựa vào các luật phân phối. Đây là một lĩnh vực 
khá phức tạp không nằm trong phạm vi của chương này. Ở đây, chúng ta chỉ 
điểm một số mô hình mô phỏng mang tính minh họa để bạn đọc có thể dựa. 
vào đó mà phát triển thêm. 

Ví dụ 11: Mô phỏng để chứng minh phương sai của số trung bình bằng 
phương sai chia cho m ( var ( Ý )= Ø” /n). Chúng ta sẽ xem một biến số không 
liên tục với giá trị 1, 3 và 5 với xác suất như sau: 








L_x TP | 
1 ` 
3 0.30 
S 0.10 














Qua số liệu này, chúng ta biết rằng giá trị trung bình là 
(1 x0.60)+(3x0.30)+(5 x0.10) = 2.0 và phương sai (bạn đọc có thể tự tính) là 1.8. 
Bây giờ chúng ta sử dụng hai thông số này để thử mô phỏng 500 lần. 
Lệnh thứ nhất tạo ra 3 giá trị của x. Lệnh thứ hai nhập số xác suất cho từng 
giá trị của x. Lệnh samp1e yêu cấu R tạo nên 500 số ngẫu nhiên và cho vào, 


đối tượng draws. 
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x <- c(1l, 3, 5} 

PK <— c(0.6, 0.3, 0.1) 

draws <— sample(x, size=500, replace=T, prob=px 

hist (draws, breaks=seqg(1,5, by=0.25), main="1000 draws"} 


drawx. 


250 300 


350 200 


100 


s0 











Từ luật phân phối xác suất chúng ta biết rằng tính trung bình sẽ có 60%, 
lần có giá trị "1 30% có giá trị “2? và 10% có giá trị “5” Do đó, chúng ta kì 
vọng sẽ quan sát 300, 150 và 50 lần cho mỗi giá trị. Biểu đồ trên cho thấy phân 
phối các giá trị này gần với giá trị mà chúng ta kì vọng. Ngoài ra, chúng ta cũng, 
biết rằng phương sai của biến số này là khoảng 1.8. Bây giờ chúng ta kiểm tra 
xem có đúng như kì vọng hay không: 

> var (draws) 

{1] 1.835671 

Kết quả trên cho thấy phương sai của 500 mẫu là 1.836, tức không xa mấy 
so với giá trị kì vọng. 

Bây giờ, chúng ta thử mồ phỏng 500 giá trị trung bình # (x là số trung 
bình của 4 số liêu mô phỏng) từ quần thể trên: 


> draws <- sample(x, size=4*500, replace=T, prob=px) 








> draws = matrix(draws, 4) 

> drawmeans = apply(draws, 2, mean) 

Lệnh thứ nhất và thứ hai tạo nên đối tượng tên là draws với 4 dòng, mỗi 
dòng có 500 giá trị từ luật phân phối trên. Nói cách khác, chúng ta có 4*500 = 2000 
số. 500 số cũng có nghĩa là 500 cột: 1 đến 500. Tức mỗi cột có 4 số. Lệnh thứ ba tìm 
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trị số trung bình cho mỗi cột. Lệnh này sẽ cho ra 500 số trung bình và chứa trong. 
đối tượng drzawrneans. Biểu đồ sau đây cho thấy phân phối của 500 số trung bình: 
> hist (drawmeans,breaks=seq (1, 5, by=0 .25) , 
main="1000 means of 4 draws") 






























































1000 means of4 draws 
8 
H 
° —¬ 
1 ? 3 4 5 
drawmeans 


Chúng ta thấy rằng phương sai của phân phối này nhỏ hơn. Thật ra, 
phương sai của 500 số trung bình này là 0.45. 
> var (drawmeans) 
[1] 0.4501112 


Đây là giá trị tương đương với giá trị 0.45 mà chúng ta kì vọng từ công 
thức var(X)=ø°/4=1.8/4=0.45. 


5.4.1 Mô phỏng phân phối nhị phân 


Ví dụ 12: Mô phỏng mẫu từ một quần thể với luật phân phối nhị phân. 
Giả dụ chúng ta biết một quần thể có 20% người bị bệnh tiểu đường (xác suất 
p = 0.2). Chúng ta muốn lấy mẫu từ quần thể này, mỗi mẫu có 20 đối tượng, 
và phương án chọn mẫu được lặp lại 100 lần: 

> bin <- rbinom(100, 20, 0.2) 

> bin 

[1] 4 


4 5436734415353445144 
4432 


)32232 
422545 
[38] 735334324524554222855534574 
3646688331 


(?510144233744009692314564532432 
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Kết quả trên là số lần đầu, chúng ta sẽ có 4 người mắc bệnh; lần 2 cũng 4 
người; lần 3 có 5 người mắc bệnh; v.v... kết quả này có thể tóm lược trong một 
biểu đồ như sau: 

> hist(bin, 

"Number of diabetic patients”, 
Number of samples", 
Distribution of the number of diabetic patients") 





Distibution of the number of diabetic patients 
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ø 2 4 6 8 


Number of diabetic patients 
> mean (bỉn) 
[1] 3.97 


Đúng như chúng ta kì vọng, vì chọn mỗi lần 20 đối tượng và xác suất 20%, 
nên chúng ta tiên đoán trung bình sẽ có 4 bệnh nhân tiểu đường. 


5.4.2 Mô phỏng phân phối Poisson 


Ví dụ 13: Mô phỏng mẫu từ một quần thể với luật phân phối Poisson. 
Trong ví dụ sau đây, chúng ta mô phỏng 100 mẫu từ một quần thể tuân theo 
luật phân phối Poisson với trung bình À = 3: 

> pois <- rpois(100, 1ambda=3) 

> pois 

> pois 

[1] 4 

402 


32423440750334226142335421 
1512226 
[4B 135633509832 25333)1473432614105 
2223684414 


[75110043323334154413164442224 
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'Và mật độ phân phối: 


















































Histogram of pois 
š 
ẫ° 
ễ 
° —¬1 
ø 2 4 6 8 
pois 


Phân phối Poisson và phân phối mũ. Trong ví dụ sau đây, chúng ta 
mô phỏng thời gian bệnh nhân đến một bệnh viện. Biết rằng, bệnh nhân 
đến bệnh viện một cách ngẫu nhiên theo luật phân phối Poisson, với trung 
bình 15 bệnh nhân cho mỗi 150 phút. Có thể chứng minh rằng khoảng cách 
thời gian đến bệnh viện giữa hai bệnh nhân tuân theo luật phân phối mũ. 
Chúng ta muốn biết thời gian mà bệnh nhân ghé bệnh viện; do đó, chúng, 
ta mô phỏng 15 thời gian giữa hai bệnh nhân từ luật phân phối mũ với tỉ lệ 
15/150 = 0.1 mỗi phút. Các lệnh sau đây đáp ứng yêu cầu đó: 

# Tạo thời gian đến bệnh viện 

> appoint <- rexp(15, 0.1) 

> times <- round(appoint,0) 

> times 

[1] 37 5 81024 5 1 7 8 612 6 32515 
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5.4.3 Mô phỏng phân phối x?, t, F 

Cách mô phỏng trên đây còn có thể áp dụng cho các luật phân phối khác 
như nhị phân âm (negative binomial distribution với rnbinom), gamma 
(rgamma), beta (rbeta), Khi bình phương (rehisq), hàm mũ (rexp), t 
(rE), F (r£), v.v... Các thông số cho các hàm mô phỏng này có thể tìm trong 
phần đầu của chương. 





Các lệnh sau đây sẽ minh họa các luật phân phối thông thường đó: 


» _ Phân phối Khi bình phương với một số bậc tự do: 
> curve(dchisq(x, 1), xlim=c(0,10), ylim=c(0,0.6), 
col="red", 1wd=3) 





> curve(dchisq(x, 2), add=T, col="green", 1wd=3) 
> curve(dchisg(x, 3), add=T, col="blue", 1wd=3) 
> curve (dchisq(x, 5), add=T, col="orange", 1wd=3) 
> abline(h=0, 1ty=3) 
> abline(v=0, Ity=3) 
> legend (par ("usr") [2], par("usr") [4], 
xjust=l, 
C("d£=1", "d£=2", "df=3", "đ£=5"), 1wd=3, lty=l, 
col=c("red", "green", "blue", "orange")) 





sÀ 
Š 





dchisq6x1) 














Biểu đồ 4. Phân phối Khi bình phương với bậc tự do =1, 2, 3, 5. 
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+ Phân phối£: 

> curve (dt(x, 1), xlim=c(-3,3), ylim=c(0,0.4), 
col="red", 1wd=3) 

curve (dt(x, 2), add=T, col="blue", 1wd=3) 

curve (dt(x, 5), add=T, 1wd=3) 

curve (dt (x, 10), add=T, col="orange”, 1wd=3) 





curve (dnorm(x), add=T, 1wd=4, 1ty=3) 


tit1le (main="Student T distributions") 


VVVVVvv 


1egend (par ("usr") [2], par("usr") [4], xjust=l, 
c("d£=1", “df=2", “d£=5", 
“d£f=10", "Normal distribution"), 
1wd=c(2,2,2,2,2), 
1Ey=c(1,1,1,1,3), 


col=c("red", "blue", "green", "orange", par("fg"))) 





04 


t1) 
02 03 


01 








00 





Biểu đồ 5. Phân phối t với bậc tự do =1, 2, 5, 10 so sánh với phân phối chuẩn. 
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«+ Phân phối E: 

curve (đf (x,1,1), xlim=c(0,2), ylim=c(0,0.8), 1wd=3) 
curve (d£ (x,3,1), add=T) 

curve (df(x,6,1), ađđ=T, 1wd=3) 

curve (df (x,3,3), add=T, 
curve (đf (x,6,3), add=T, 
curve (df (x,3,6), adđ=T, col="blue") 
curve (df (x,6,6), add=T, col="blue", 1wd=3) 
"Fisher F đistributions") 


col="red") 





tit1e (maii 
1egend (par ("usr")[2], par("usr") [4], 





VVWVVVVVVV 


xjust=l1, 

C("df=1,1", “df=3,1", "df=6,1", "d£=3,3", 
"d£=6,3", "df=3,6", "d£=6,6"), 

1wd=c (1,1,3,1,3,1,3)„ 

1ty=c(2,1,1,1,1,1,1), 

=c (par ("£g"), par("fg")„ par("fg"), 
"red", "blue", "blue")) 





Fisher F distributions. 
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Biểu đồ 6. Phân phối F với nhiều bậc tự do khác nhau. 
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VVWVVVvVVvv 


wVVvvv 


Phân phối gamma: 


curve (_ dgamma (x„ 1,1) „ 
curve (_ dgamma (x„2,1) „ 
curve (_ dgamma (x, 3,1) „ 
curve (_ đgamma (x„ 4,1) „ 
curve (_ dgamma (x„ 5,1) 


x1im=c (0,5)) 





add=T, 'red' ) 
col= 'green' ) 

add=T, col= 'blue' ) 

add=T, col= 'orange' ) 


title (main="Gamma probability distribution function") 


1egend (par ( 'usr' ) [2], 

c( =1 
=3, 
col=c (par ( 'fg' )„ 








par( 'usr') [4], xjust=1, 
(Exponential distribution)', 'k=2', 
k4, 5'),1wd=l, 1ty=1, 
tred', 'green', 'blue', 'orange' ) 





dgamma(x:1,1) 
04 06 08 10 


02 


00 











Biểu đồ 7. Phân phối Gamma với nhiều hình dạng. 


Phân phối beta: 

curve( đbeta(x,1,1), xlim=c(0,1), ylim=c(0,4) ) 
curve( dbeta(x,2,1), add=T, col= 'red ) 

curve( dbeta(x,3,1), add=T, col= 'green' ) 

curve( dbeta(x,4,1), add=T, col= 'blue' ) 

curve( dbeta(x,2,2), add=T, Ity=2, lwd=2, col= 'red' ) 


) 
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> curve( dbeta (x,3,2), add=T, lty=2, lwd=2, col= 'green' ) 
> curve( dbeta(x,4,2), add=T, Ity=2, 1wd=2, col= 'blue') 
> curve( dbeta(x,2,3), add=T, Ity=3, 1wd=3, col= 'red') 


v 


curve( dbeta (x,3,3), add=T, lty=3, lwd=3, col= 'green' ) 
> curve( dbeta(x,4,3), add=T, lty=3, 1wd=3, col= 'blue' ) 
> title (mai 





Beta đistribution") 
> l1egend (par ( 'usr') [1], par( 'usr') [4], xjust=0, 
€(*(1/1)', *(2/1)", 143,1), 144,1)", 
92/2), Ý3,2)1; *0,20y 
92/3), 1(3,3)1, 1(4,3)"), 
1wd=l, #c(1,1,1,1, 2,2,2, 3,3,3), 
1ty=c(1,1,1,1, 2,2,2, 3,3,3), 
col=c (par ( *£g'), 'red', 'green', 'blue', 
'red', 'green', 'blue', 


'red', 'green', 'blue')) 


'Beta distribution. 





dbeta(x,1,1) 

















Biểu đồ 8. Phân phối beta với nhiều hình dạng. 
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«_ Phân phối Weibull: 


> curve (dexp(x), xlim=c(0,3), ylim=c(0,2)) 
> curve (dweibull(x,1), 1ty=3, 1wd=3, add=T) 
> curve (dweibull(x,2), col= 'red', add=r) 
> curve (đweibull (x,.8), col= 'blue', add=r) 
> title(main="Weibull Probability Distribution Function") 
> legend (par ( 'usr") [2], par( "usr") [4], xjust=1, 
C(*Exponential', Weibull, shape=l!, 
Weibull, shape=2', 'Weibull, shape=.8"), 
1wd=c (1,3,1,1), 
1ty=c (1,3,1,1), 
col=c (par ("fg"), par("fg"), 'red', 'blue')) 


'Weibull Probability Distribution Function. 





kẻ 


dexp(x) 
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Biểu đồ 9. Phân phối Weibull. 
« _ Phân phối Cauchy: 
> curve (dcauchy (x) ,x1im=c (5,5), ylim=c(0,.5), 1wd=3) 
> curve (dnorm(x), add=T, col= 'red', lty=2) 


> 1egend (par ( *usr") [2], par( 'usr") [4], xjust=l, 
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c(*Cauchy distribution”, 'Gaussian distribution”), 
1wd=c (3,1), 

1ty=c (1,2), 

col=c (par ("fg")„ *red”)) 
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Biểu đồ 10. Phân phối Cauchy so sánh với phân phối chuẩn. 


5.5 Chọn mẫu ngẫu nhiên (random sampling) 

Trong xác suất và thống kê, lấy mẫu ngẫu nhiên rất quan trọng, vì nó 
đảm bảo tính hợp lí của các phương pháp phân tích và suy luận thống kê. 
Với R, chúng ta có thể lấy một mẫu ngẫu nhiên bằng cách sử dụng hàm 
sample. 

Ví dụ: Chúng ta có một quần thể gồm 40 người (mã số 1, 2, 3,..., 40). 
Nếu chúng ta muốn chọn 5 đối tượng quần thể đó, ai sẽ là người được chọn? 
Chúng ta có thể dùng lệnh samp1e () để trả lời câu hỏi đó như sau: 

> sample(1:40, 5) 

[1] 3226 618 9 

Kết quả trên cho biết đối tượng 32, 26, 6, 18 và 9 được chọn. Mỗi lần ra 
lệnh này, R sẽ chọn một mẫu khác, chứ không hoàn toàn giống như mẫu trên. 
Ví dụ: 

> sample(1:40, 5) 

[1] 5 22 35 19 4 


—. 
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> sample(1:40, 5) 
[1] 24 26 12 6 22 


> sample(1:40, 5) 

[1] 22 38 11 618 

v.v... 

Trên đây là lệnh để chúng ta chọn mẫu ngẫu nhiên mà không thay thế 
(random sampling without replacement), tức là mỗi lần chọn mẫu, chúng ta 
không bỏ lại các mẫu đã chọn vào quần thể. 

Nhưng nếu chúng ta muốn chọn mẫu thay thế (tức mỗi lần chọn ra một 
số đối tượng, chúng ta bỏ vào lại trong quẩn thể để chọn tiếp lần sau). Ví 
dụ, chúng ta muốn chọn 10 người từ một quần thể 50 người, bằng cách lấy 
mẫu với thay thể (random sampling with replacement), chúng ta chỉ cần thêm. 
tham số replace=TRUE: 


> sample(1:50, 10, replace=T) 


(1] 31 44 6 8 47 50 10 16 29 23 


Hay ném một đồng xu 10 lần; mỗi lần, dĩ nhiên đồng xu có 2 kết quả H và 
T; và kết quả 10 lần có thể là: 


> sample(c("H", "T"), 10, replace=T) 


[1] “H% tự tủ mm mg ng mm mịn mực mm 


Cũng có thể tưởng tượng chúng ta có 5 quả banh màu xanh (X) và 5 quả 
banh màu đỏ (D) trong một bao. Nếu chúng ta chọn 1 quả banh, ghi nhận 
màu, rồi để lại vào bao; rồi lại chọn 1 quả banh khác, ghi nhận màu, và bỏ vào 
bao lại. Cứ như thế, chúng ta chọn 20 lần, kết quả có thể là: 


> sample(c("X", "D"), 20, replace=T) 





[1] "X" "ph "pm "ph ng mọm mựm 
ty Hư HD màn nệm ng miện 





x" tự tpm 


[20] 





'Rlpe/fielun heploerg 


Ngoài ra, chúng ta còn có thể lấy mẫu với một xác suất cho trước. Trong 
hàm sau đây, chúng ta chọn 10 đối tượng từ dãy số 1 đến 5, nhưng xác suất 
không bằng nhau: 

> sample(5, 10, prob=c(0.3, 0.4, 0.1, 0.1, 0.1), 

replace=T) 

Hj133322323232753 

Đối tượng 1 được chọn 2 lần, đối tượng 2 được chọn 5 lần, đối tượng 3 
được chọn 2 lần, v.v... Tuy không hoàn toàn phù hợp với xác suất 0.3, 0.4, 0.1 
như cung cấp vì số mẫu còn nhỏ, nhưng cũng không quá xa với kì vọng. 
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_>/f, À.. : 


@® Kiểm định thống kê 
và kiểm định giả thuyết 








liệu và nghiên cứu khoa học. Cũng chính vì sự phổ biến mà nó cũng dễ 

bị hiểu lầm và lạm dụng. Một nghiên cứu ở một nhóm bác sĩ chuyên 
khoa và có kinh nghiệm trong nghiên cứu y học cho thấy có đến 85% không 
hiểu ý nghĩa của trị số P [1]. Đại đa số những người được hỏi hiểu rằng một 
kết luận (về sự khác biệt) với trị số P = 0.05 có nghĩa là khả năng mà kết luận 
đó sai là 5%, hay khả năng mà kết luận đó đúng là 95% (lấy 1 trừ cho 0.05). 
Nhiều người khác thì hiểu rằng một sự khác biệt với trị số P càng nhỏ thì mức 
độ ảnh hưởng càng có ý nghĩa và độ tin cậy của kết luận càng cao. Nhưng rất 
tiếc rằng cả hai cách hiểu này đều sai. Điểu đáng ngạc nhiên là không những 
giới làm nghiên cứu khoa học hiểu sai, mà ngay cả các nhà nghiên cứu có kiến 
thức thống kẻ khá như dịch tế học cũng hiểu sai. Thật ra, một số nhà thống kê 
chuyên nghiệp cũng hiểu sai ý nghĩa của trị số P bởi vì một số sách giáo khoa 
giải thích hoặc là sai, hoặc không rõ ràng! 

'Vây thì ý nghĩa thật của trị số P là gì? Để trả lời câu hỏi này, chúng ta phải 
điểm qua triết lí khoa học, và triết lí phản nghiệm (falsiñcationism). Theo Karl 
Popper [2], cha đẻ của triết lí phản nghiệm, một giả thuyết được xem là mang 
tính “khoa học” nếu giả thuyết đó có khả năng “phản nghiệm” (falsiñed). Đặc 
điểm duy nhất để có thể phân biệt giữa một lí thuyết khoa học thực thụ với 
ngụy khoa học (pseudoscience) là thuyết khoa học luôn có đặc tính có thể 
“bị bác bỏ” hay “khả năng phản nghiệm” bằng những thực nghiệm đơn giản. 
Ông gọi đó là “khả năng phản nghiệm” (falsiñability) [3]. Phép phản nghiệm. 
là phương cách tiến hành những thực nghiệm không phải để xác minh mà để 
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T: số P (P value) có lẽ là một chỉ số phổ biến nhất trong phân tích dữ 


phê phán các lí thuyết khoa học, và có thể coi đây như là một nến tảng cho 
khoa học thực thụ. Chẳng hạn như giả thuyết [đơn giản] “vi khuẩn V. cholerae 
gây bệnh dịch tả” có thể bác bỏ nếu có một bệnh nhân dịch tả không nhiễm 
vi khuẩn V: cholerae. 

Đứng trên phương diện khoa học, có hai mô hình thực tế để tiếp cận 
lí thuyết phản nghiệm: đó là mô hình kiểm định thống kê và mô hình kiểm. 
định giả thuyết. Rất nhiều sách giáo khoa thống kê và khoa học đã được viết 
ra, nhưng rất tiếc, nhiều tác giả không giải thích hay không phản biệt được 
hai mô hình này. Có tác giả thậm chí còn nhầm lẫn khi diễn dịch, và đó cũng 
chính là một trong những nguyên nhân dẫn đến tình trạng hiểu lầm ý nghĩa 
của trị số P. Trong phần này, tôi sẽ giải thích ngắn gọn và cung cấp tài liệu 
tham khảo của hai mô hình để bạn đọc có thể hiểu qua và nghiên cứu thêm. 


6.1 Mô hình kiểm định ý nghĩa thống kê (test of significance) 


Triết lí phản nghiệm rất phố biến và trở thành một mô hình để giải 
thích sự tiến bộ của khoa học. Chịu ảnh hưởng bởi triết lí này, Ronald A. 
Fisher (1890 - 1962), một nhà di truyền học người Anh và cũng là “cha đẻ” 
của nến thống kê học hiện đại, đế xuất một phương pháp định lượng để 
phản nghiệm một giả thuyết khoa học. Ông gọi phương pháp này là “Test of 
Signifcance” [4-5] (tôi tạm dịch là: phương pháp kiểm định ý nghĩa thống 
kê). Fisher quan niệm rằng thống kê là một bộ phận quan trọng của phương 
pháp suy luận theo phép qui nạp (inductive inference), tức là phương pháp 
suy luận dựa vào quan sát từ các mẫu (sample) và khái quát cho một quần thể 
(population). Phương pháp kiểm định ý nghĩa thống kê được tiến hành theo 
3 bước như sau: 


+ Bước 1, phát biểu một giả thuyết vô hiệu (null hypothesis). Giả thuyết 
vô hiệu là giả thuyết ngược lại với giả thuyết mà nhà nghiên cứu muốn 
kiểm định. Chẳng hạn như nếu giả thuyết điểu trị bằng thuốc Ramipril 
làm giảm nguy cơ tử vong, thì giả thuyết vô hiệu sẽ phát biểu là “tỉ lệ 
tử vong ở bệnh nhân được điểu trị bằng Ramipril bằng với nhóm giả 
dược”. Gọi giả thuyết vô hiệu là H0. 

« _ Bước 2, thu thập dữ liệu liên quan đến giả thuyết. Trong ví dụ trên, số 
liệu sẽ là số trường hợp tử vong. Gọi dữ liệu là D. 

«Ö Bước 3, ước tính xác suất quan sát đữ liệu D nếu giả thuyết H0 
đúng. Nói cách khác là viết theo ngôn ngữ toán, bước này ước tính 
P(D | H0). Đây chính là trị số P (P-value). 
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Fisher để nghị báo cáo trị số P một cách chính xác. Túc là không có 
những cách viết như P < 0.05 hay P > 0.01 mà phải là P = 0.043 hay P = 0.002. 
Fisher còn để nghị rằng nếu trị số P thấp hơn 0.05 thì giả thuyết H0 (vô hiệu) 
không phù hợp với số liệu quan sát được. Đối với Fisher, không có chuyện 
“bác bỏ giả thuyết” hay “chứng minh giả thuyết” mà chỉ có số liệu có phù 
hợp, có nhất quán với giả thuyết hay không mà thôi. Quan điểm này chịu ảnh 
hưởng “đâm” của triết lí phản nghiệm của Popper, vì theo triết lí này, chúng 
ta không thể chứng minh bất cứ một giả thuyết nào, mà chỉ có thể bác bỏ 
(disprove) một giả thuyết bằng dữ liệu quan sát được. 

Cũng có thể xem trị số P như là một chỉ số ngạc nhiên. Ngày 27/4/2013, 
báo soha.vn dưới tựa để “Choáng với chiểu cao cực khủng của nam sinh lớp 
127 theo đó, một em học sinh lớp 12 có chiếu cao 204 cm. Câu hỏi đặt ra là 
chiểu cao này có đáng ngạc nhiên? Ngạc nhiên hay không còn tuỷ thuộc vào. 
phân bố chiểu cao của thanh niên Việt Nam. Theo nghiên cứu của chúng 
tôi, chiểu cao của nam thanh niên Việt Nam trung bình là 170 em và độ lệch 








003 004 005 006 


001 002 


000 


Chiếu cao của em học sinh là 204 cm, tức nằm ngoài giá trị kì vọng của 
quần thể thanh niên Việt Nam. Thật ra, chúng ta có thể tính xác suất một em 
học sinh với chiếu cao 204 cm trong quần thể có trung bình là 170 cm và độ 
lệch chuẩn 6.3 cm: 

1 - pnorm(204, mean=l70, sd=6.3) 

với kết quả là 0.0000000339. Có thể xem đó là trị số P, một thước đo về sự 
ngạc nhiên. 
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6.2 Mô hình Kiểm định giả thuyết (test of hypothesis) 


Jerzy Neyman (1894 - 1981) là một nhà toán học xuất sắc gốc Ba Lan và 
Egon Pearson (1895 - 1980) là một nhà thống kê học (con của giáo sư Karl 
Pearson, cha đẻ của lí thuyết Chi-square và hệ số tương quan) cùng lúc với 
Fisher, phát triển một phương pháp rất khác với Fisher, mà hai ông gọi là Test 
of Hypothesis (Kiểm định giả thuyết) [6]. Neyman và Pearson bác bỏ khái 
niệm suy luận theo qui nạp; hai ông nghĩ rằng thống kê học là một phương 
pháp hay cơ chế để hướng dẫn chúng ta đi đến một quyết định đúng về lâu 
về dài. Nói cách khác, Neyman và Pearson cho rằng phương pháp của Fisher 
vô nghĩa! 

Một cách đơn giản, mô hình kiểm định giả thuyết của Neyman và Pearson 
có thể thực hiện qua các bước như sau: 


« _ Bước 1, phát biểu giả thuyết chính (H1) và giả thuyết vô hiệu (H0). 
« _ Bước 2, quyết định mức độ a và b có thể chấp nhận được và ước tính 


cỡ mẫu cẩn giả thuyết. a là xác suất bác bỏ giả thuyết H1 nhưng đó là 
giả thuyết đúng. b là xác suất bác bỏ H0 trong khi H0 đúng. 


« _ Bước 3, thu thập dữ liệu liên quan đến giả thuyết. 


« _ Bước 4, nếu dữ liệu nằm trong khoảng bác bỏ giả thuyết H0 thì chấp 
nhận giả thuyết H1; nếu không thì chấp nhận giả thuyết H0. Chú ý 
rằng "chấp nhận” một giả thuyết không có nghĩa là chúng ta tin vào giả 
thuyết đó, mà chỉ có nghĩa là chúng ta hành động với điều kiện đó là 
giả thuyết đúng. 

Nguyên lí của mô hình Neyman và Pearson là chúng ta dựa vào dữ liệu để 
chọn một giả thuyết sao cho về lâu về dài chúng ta không quá sai. Chính vì thế 
mà ngày nay chúng ta thường chọn a = 5% và b = 10% đến 20%. 


Eisher bác bỏ hoàn toàn mô hình của Neyman và Pearson [7]. Ông cho 
rằng đó là một mô hình... vô duyên. Fisher nhạo báng rằng các nhà toán 
học (ám chỉ Neyman và Pearson) “chẳng hiểu gì về thực nghiệm và để ra 
một mô hình quá phi thực tế. Trong những năm sau đó (thập niên 19305) 
cộng đồng thống kê học chứng kiến một cuộc tranh luận dai dẳng và đôi 
khi nóng bỏng giữa Fisher và Neyman-Pearson trên các tập san thống kê 
học ở Anh. Fisher tuy là một người thông minh tuyệt vời, một nhà tư tưởng 
với những suy nghĩ trừu tượng, nhưng lại là một người rất khó tính và có 
khi hẹp hòi. Sự hẹp hòi của Fisher thể hiện ở chỗ ông sử dụng chức quyển 
khoa bảng của mình để gây khó khăn cho Neyman đến nỗi ông này chịu 
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không nổi và phải di cư sang Mi và sau này trở thành giáo sư tại trường Đại 
học Berkeley. Sau này, Neyman được lịch sử ghi nhận là một nhà thống kê 
học xuất sắc có công cực kì to lớn cho khoa học hiện đại, sánh vai cùng các 
“đại thụ” trong khoa học hiện đại. Nước Mi quả thật là môi trường cho ông 
thi thố tài năng! 


6.3 Một mô hình hỗn hợp 


Trớ trêu thay, mấy mươi năm sau, hai mô hình của Fisher và Neyman- 
Pearson được “hun đúc” thành một mô hình tổng hợp mà chúng ta ứng dụng 
ngày nay trong nghiên cứu y học. Mô hình này sử dụng kết quả kiểm định 
thống kê của Fisher để đi đến quyết định chấp nhận hay bác bỏ giả thuyết 
vô hiệu H0 hay giả thuyết chính H1 theo mô hình của Neyman và Pearson. 
Tiêu biểu cho mô hình này là nghiên cứu lâm sàng đối chứng ngẫu nhiên 
(randomized controlled clinical tríal hay RCT). Theo đó, một nghiên cứu lâm 
sàng được tiến hành theo các bước như sau: 


« _ Bước 1, định nghĩa một giả thuyết vô hiệu và một giả thuyết chính. Thí 
dụ trong một nghiên cứu lâm sàng, gốm hai nhóm bệnh nhân: một 
nhóm được điểu trị bằng thuốc A, và một nhóm được điểu trị bằng 
placebo, nhà nghiên cứu có thể phát biểu giả thuyết vô hiệu rằng độ 
hiệu nghiệm thuốc A tương đương với placebo. 


« Bước 2, xác định xác suất œ (còn gọi là sai số loại I) và (còn gọi là 
sai số loại II), và ước tính cỡ mẫu dựa vào hai xác suất này. 


+ _ Bước 3, thu thập dữ liệu liên quan đến giả thuyết. Gọi đữ liệu là D. 


+ _ Bước 4, sử dụng phương pháp kiểm định ý nghĩa thống kê của Fisher 
ước tính xác suất P(D | H0). Gọi trị số này là P. 


«_ Bước 5, nếu P< 0.05, bác bỏ giả thuyết H0. Chú ý, bác bỏ H0 không có 

nghĩa là chúng ta chấp nhận giả thuyết H1. 

Ví dụ: Có thể minh họa cho các bước trên bằng một ví dụ về nghiên cứu 
hiệu quả của thuốc Ramipril trong việc phòng chống tử vong và đột quy [1]. 
Với giả thuyết rằng thuốc có hiệu nghiệm giảm nguy cơ tử vong và đột quy, 
các nhà nghiên cứu so sánh tỉ lệ tử vong và đột quy giữa hai nhóm bệnh nhân: 
nhóm 1 được điểu trị bằng Ramipril và nhóm 2 là nhóm giả dược (placebo). 
Bắt đầu bằng cách xác định œ = 0.05 và / = 0.80, các nhà nghiên cứu ước 
tính số lượng bệnh nhân cần thiết. Sau ba năm thu thập số liệu, kết quả có thể 
tóm lược trong bảng số liệu sau đây: 
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BẰNG 1. HIỆU QUÁ CỦA RAMIPRIL GIẢM NGUY CƠ NHỐI MÁU CƠ TÌM, 
'ĐỘT QUY, TỪ VONG VÀ TIỂU ĐƯỜNG THẾ HIỆN QUA TỈ SỐ NGUY CƠ VÀ TRỊ SỐ P. 





TĨ số nguy cơ (relative risk) 














và khoảng tin cây 95% | TrịsốP 
Nhối máu cơ tim, đột quy, tử vong. 083 (0.75 -0.91) | 00002 
Tilệ mới mắc bệnh tiểu đường 069(056-085) | 00006 





HOPE/HOPE-TOO Study Investigators. Long-term effects of Ramipril 
on cardiovascular events and điabetes. Results of the HOPE Study Extension.. 
Circulation 2005; 112:1339-1346. 


Bởi vì trị số P thấp hơn mức a (0.05) mà các nhà nghiên cứu để ra từ lúc 
đấu (trước khi thu thập số liệu); cho nên, các nhà nghiên cứu kết luận rằng 
sự khác biệt vể tỉ lệ tử vong và đột quy giữa hai nhóm có ý nghĩa thống kê. 
'Tất nhiên, trị số P trên không có nghĩa là nghiên cứu đã chứng minh rằng thuốc 
Ramipril có hiệu quả giảm nguy cơ tử vong và đột quy. Nó có nghĩa là nếu thật 
sự thuốc Ramipril không có hiệu quả giảm nguy cơ tử vong và đột quy thì xác 
suất mà các nhà nghiên cứu quan sát các số liệu trên là 0.0002. 


6.4 Vấn đề của trị số P 


Có lẽ nói không ngoa rằng trị số P là một con số phổ biến nhất trong khoa. 
học từ khoảng 100 năm qua [9]. Hầu hết các bài báo khoa học đều trình bày trị 
số P như hàm ý nâng cao tính khoa học và độ tin cậy của bài báo. Tuy nhiên, 
ngay từ lúc mới “ra đời” trị số P đã bị phê bình đữ dội. Có người cho rằng việc 
ứng dụng trị số P trong suy luận khoa học là một bước lùi, là một sự thoái hóa. 
của khoa học, nên đế nghị không sử dụng trị số này trong nghiên cứu khoa 
học. Nhưng dù chịu nhiều chỉ trích và phê bình, ứng dụng phương pháp kiểm 
định giả thuyết và trị số P vẫn càng ngày càng phổ biến, đơn giản vì chúng ta 
chưa có một phương pháp khác tốt hơn, hay hợp lí hơn, hoặc đơn giản hơn. 
Trong phần này, tôi sẽ không điểm qua tất cả các phê bình trị số P (vì làm như 
thế cần một cuốn sách), mà chỉ nêu một số vấn để chúng ta cẩn lưu ý khi diễn 
dịch trị số P. 


6.4.1 Vấn đề logic 

Như qua minh họa trên, trị số P không cho chúng ta biết gì về sự khả di 
của một giả thuyết, bởi vì nó là một xác suất có điểu kiện. Trị số P cho chúng ta 
biết xác suất của dữ liệu (data) nếu một giả thuyết là đúng. Cái khiếm khuyết 
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lớn nhất của trị số P là nó thiếu tính logic. Thật vậy, nếu chúng ta chịu khó 
xem xét lại ví dụ trên, có thể khái quát tiến trình của một nghiên cứu y học 
(dựa vào trị số P) như sau: 

« _ Đềra một giả thuyết chính vô hiệu (H0) 

« _ Từ giả thuyết vô hiệu, để ra một giả thuyết chính (H1) 

« _ Tiến hành thu thập dữ liệu (D) 

« _ Phân tích dữ kiện: tính toán xác suất D xảy ra nếu H0 là thật. Nói theo 

ngôn ngữ toán xác suất, bước này chính là bước tính toán trị số P hay 
P(D | H0). 

Vì thế, con số P có nghĩa là xác suất của dữ liệu D xảy ra nếu (nhấn manh; 
“nếu”) giả thuyết vô hiệu H0 là đúng. Như vậy, con số P không trực tiếp cho. 
chúng ta một ý niệm gì về sự thật của giả thuyết chính HI; nó chỉ gián tiếp 
cung cấp bằng chứng để chúng ta chấp nhận giả thuyết chính và bác bỏ giả 
thuyết vô hiệu. 

Logic đằng sau của trị số P có thể được hiểu như là một qui trình chứng 
minh đảo ngược (proof by contradiction): 

« _ Mệnh để 1: Nếu giả thuyết vô hiệu đúng, thì sự kiện này không thể 

Xây ra; 

« - Mệnh để 2: Sự kiện xảy ra; 

«_ Mệnh để 3 (kết luận): Giả thuyết vô hiệu không thể đúng. 

Nếu cách lập luận trên khó hiểu, chúng ta thử xem một ví dụ cụ thể như sau: 

« _ Nếu ông Tuấn bị cao huyết áp, thì ông không thể có triệu chứng rụng 

tóc (hai hiện tượng sinh học này không liên quan với nhau, ít ra là theo 
kiến thức y khoa hiện nay); 

+ _ Ông Tuấn bị rụng tóc; 

« _ Do đó, ông Tuấn không thể bị cao huyết áp. 

Trị số P, do đó, gián tiếp phản ánh xác suất của mệnh để 3. Và đó cũng 
chính là một khiếm khuyết quan trọng của trị số P, bởi vì nó ước tính mức độ 
khả dĩ của dữ liệu, chứ không nói cho chúng ta biết mức độ khả dĩ của một giả 
thuyết. Điểu này làm cho việc suy luận dựa vào trị số P rất xa rời với thực tế, 
xa rời với khoa học thực nghiệm. Trong khoa học thực nghiệm, điểu mà nhà 
nghiên cứu muốn biết là với dữ liệu mà họ có được, xác suất của giả thuyết 
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chính là bao nhiêu, chứ họ không muốn biết nếu giả thuyết đảo là sự thật thì 
xác suất của dữ liệu là bao nhiêu. Nói cách khác và dùng kí hiệu mô tả trên, 
nhà nghiên cứu muốn biết P(H1 | D), chứ khỏng muốn biết P(D | H0) hay. 
P(D | HI). 


6.4.2 Vấn đề kiểm định nhiều giả thuyết 

Như đã nói trên, nghiên cứu y học là một qui trình kiểm định giả thuyết. 
Trong một nghiên cứu, ít khí nào chúng ta kiểm định chỉ một giả thuyết duy 
nhất, mà rất nhiều giả thuyết cùng một lúc. Chẳng hạn như trong một nghiên. 
cứu về hiệu quả của Ramipril, các nhà nghiên cứu có thể phân tích hiệu quả 
của Ramipril qua nhiều tiêu chí lâm sàng như nguy cơ tử vong, nhối máu cơ 
tim, đột quy, tỉ lệ mắc bệnh tiểu đường, v.v... từng giới tính, từng nhóm tuổi, 
hay phân tích theo các đặc tính lâm sàng của bệnh nhân. Mỗi một phân tích 
như thế có thể xem là một kiểm định giả thuyết. Ở đây, chúng ta phải đối 
diện với vấn để nhiểu giả thuyết (multiple tests of hypothesis hay còn gọi là 
multiple comparisons). 

Vấn để là như sau: nếu chúng ta kiểm định một giả thuyết chúng ta chấp 
nhận một sai sót 5% (giả dụ chúng ta chấp nhận tiêu chuẩn P = 0.05 để tuyên 
bố có ý nghĩa hay không có ý nghĩa thống kẻ). Nói cách khác, sự thật là không 
thuốc có hiệu quả sai, nhưng kết quả kiểm định thống kê cho ra kết quả có ý 
nghĩa thống kê, và chúng ta chấp nhận rằng sự kiện này có thể xảy ra với tấn số 
5%. Vấn để đặt ra là trong bối cảnh kiểm định nhiều giả thuyết là như sau: nếu 
trong số ø thử nghiệm, chúng ta tuyên bố k thử nghiệm “có ý nghĩa thống 
kê” (tức là P<0.05), thì xác suất có ít nhất một giả thuyết sai là bao nhiêu? 

Để trả lời câu hỏi này chúng ta sẽ bắt đầu bằng một ví dụ đơn giản. Mỗi kiểm 
định chúng ta chấp nhận một xác suất sai lầm là 0.05. Nói cách khác, chúng ta có 
xác suất đúng là 0.95. Nếu chúng ta thử nghiệm 3 giả thuyết, xác suất mà chúng 
ta đúng cả ba [dĩ nhiên] là: 0.95 x 0.95 x 0.95 = 0.8574. Như vậy, xác xuất có ít 
nhất một sai lầm trong ba tuyên bố “có ý nghĩa thống kê” là: 1 - 0.8574 = 0.1426 
(tức khoảng 14%). 

Nói chung, nếu chúng ta thử nghiệm øở giả thuyết, và mỗi lần thử nghiệm 
chúng ta chấp nhận một xác suất sai lầm là p, thì xác suất có ít nhất 1 sai lầm 
trong ñ lần thử nghiệm đó là 1—(I— p}”. Khi số lấn kiểm định là ø = 10 và 
p =0.05 thì xác suất có ít nhất một kết luận sai lầm lên đến 40%! 

“Bài học” rút ra từ cách lí giải trên là như sau: nếu chúng ta đọc một bài 
báo khoa học mà trong đó nhà nghiên cứu tiến hành nhiều thử nghiệm khác 
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nhau với các kết quả trị số P < 0.05, chúng ta có lí do để cho rằng xác suất mà 
một trong những cái-gọi-là “signifñcant” (hay “có ý nghĩa thống kê”) đó rất cao. 
Chúng ta cẩn phải dè dặt với những kết quả phân tích như thế. 

Đối với một người làm nghiên cứu, ý nghĩa của vấn để thử nghiệm nhiều 
giả thuyết là: không nên “câu cá” Xin nói thêm về khái niệm “câu cá” trong 
khoa học. Hãy tưởng tượng, một nhà nghiên cứu muốn tìm hiểu hiệu quả 
của một thuật điểu trị mới cho các bệnh nhân đau khớp. Sau khi xem xét các 
nghiên cứu đã công bố trong y văn, nhà nghiên cứu quyết định tiến hành 
một nghiên cứu trên 300 bệnh nhân: phân nửa được điếu trị bằng thuật mới, 
phân nửa chỉ sử dụng giả dược. Sau thời gian theo dõi, thu thập dữ liệu, nhà 
nghiên cứu phân tích và phát hiện sự khác biệt giữa hai nhóm không có ý 
nghĩa thống kê. Nói cách khác, thuật điểu trị không có hiệu quả. Nhà nghiên 
cứu không chịu “đầu hàng? nên tìm cho được một kết quả có ý nghĩa thống 
kê: chia bệnh nhân thành nhiều nhóm theo độ tuổi (trên 50 hay dưới 50), theo. 
giới tính (nam hay nữ), thành phấn kinh tế (có thu nhập cao hay thấp), và 
thói quen (chơi thể thao hay không). Tính chung, nhà nghiên cứu có 16 nhóm. 
khác nhau, và có thể kiểm định 16 giả thuyết. Nhà nghiên cứu “khám phá” 
thuật điểu trị có ý nghĩa thống kê trong nhóm phụ nữ tuổi trên 50 và có thu 
nhập cao. Và, kết quả trên được công bố. Đó là một qui trình làm việc mà giới 
nghiên cứu khoa học gọi là “ñshing expedidon” (một chuyến đi câu cá). Tất 
nhiên, một kết quả như thế không có giá trị khoa học và không thể tin được. 
(Với 16 kiểm định giả thuyết và với P = 0.05, xác suất mà một kiểm định có 
kết quả “signifcant lên đến 55%, do đó chúng ta chẳng ngạc nhiên khi thấy 
có một “con cá” được bắt!) 


Để cho kết quả trị số P có ý nghĩa nguyên thủy của nó trong bối cảnh. 
thử nghiệm nhiều giả thuyết, các nhà nghiên cứu để nghị sử dụng thuật điểu 
chỉnh Bonferroni (tên của một nhà thống kê học người Ý từng để nghị cách 
làm này). Theo để nghị này, trước khi tiến hành nghiên cứu, nhà nghiên 
cứu phải xác định rõ giả thuyết nào là chính, và giả thuyết nào là phụ. Ngoài 
ra, nhà nghiên cứu còn phải để ra kế hoạch sẽ thử nghiệm bao nhiêu giả 
thuyết trước khi phân tích đữ liệu. Chẳng hạn như nếu nhà nghiên cứu có 
kế hoạch thử nghiệm 20 so sánh và muốn giữ cho trị số P ở 0.05, thì thay 
vì dựa vào 0.05 là tiêu chuẩn để tuyên bố “signifñcant, nhà nghiên cứu phải 
dựa vào tiêu chuẩn 0.0025 (tức lấy 0.05 chía cho 20) để tuyên bố “signifñcant. 
Nói cách khác, chỉ khi nào một kết quả có trị số P thấp hơn 0.0025 (hay nói 
chung là P/n) thì nhà nghiên cứu mới có “quyến” tuyên bố kết quả đó có ý 
nghĩa thống kê. 
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6.4.3 Ý nghĩa thống kê không tương đương với ý nghĩa lâm sàng 


Một sai lầm rất phổ biến trong giới y khoa là xem một khác biệt có “ý 
nghĩa thống kê” (statistical signiñcance) tương đương với “ý nghĩa lâm sàng” 
(clinical signiñcance). Có thể xem trị số P được tính toán từ tỉ số của tín hiệu 
(signal, mức độ khác biệt giữa hai nhóm) và nhiễu (noise hay độ đao động của 
mẫu). Gọi T là kiểm định thống kê, S là tín hiệu, và E là nhiễu, ý tưởng trên có 
thể mô tả như sau: 


Khi số lượng cỡ mẫu tăng và nếu S bất biến thì 7 sẽ tăng, tức có cơ hội đạt 
ý nghĩa thống kê. Điểu này có nghĩa là chúng ta có thể giảm E tối đa bằng cách 
tăng số lượng cỡ mẫu, và nó cũng có nghĩa là một khác biệt rất nhỏ chẳng có ý 
nghĩa gì trong thực tế nhưng vẫn có thể có ý nghĩa thống kê. Ngược lại, một khác 
biệt hay ảnh hưởng (efect) lớn, nhưng nếu số lượng cỡ mẫu không đầy đủ không 
thể đạt được ngưỡng chuẩn "có ý nghĩa thống kê” (tức P > 0.05). 


Bảng 2 sau đây trình bày 4 nghiên cứu (tưởng tượng) với số cỡ mẫu khác 
nhau, từ 20 đến 2.000.000 bệnh nhân. Cột “Kết quả” trình bày số bệnh nhân 
được điểu trị dứt bệnh và số trong ngoặc là phần trăm. Giả thuyết vô hiệu là 
xác suất kết quả 0.5 (tức 50%). Tất cả 4 nghiên cứu đều có trị số P = 0.041. Như 
có thể thấy qua bảng này, nghiên cứu 1 có tỉ lệ ảnh hưởng cao và có ý nghĩa 
lâm sảng (75%), và chỉ với 20 bệnh nhân, các nhà nghiên cứu có thể bác bỏ giả 
thuyết H0. Nhưng nghiên cứu 4, mức độ ảnh hưởng rất thấp (chỉ 50.07%, tức 
chỉ cao hơn giả thuyết vô hiệu 0.07%) nhưng vẫn có ý nghĩa thống kề vì số cỡ 

















mẫu quá lớn! 7.5...” | 
Bảng 2. Ảnh hưởng của cỡ mẫu đến trị số P 
[xe=" | ng |aeteenj| ớt 
1 20 15 5%) | 0041 
+ 
2 200 114(57%) | 0041 
3 2000 1.046 (52,5%) | 0041 
4 2000000 |1001445(5007%)| 0041 

















“Trong thực tế, có rất nhiều nghiên cứu mà độ khác biệt giữa hai nhóm rất 
nhỏ, nhưng vẫn có ý nghĩa thống kê [9-10]. Điểu đáng quan tâm là kết quả có 
ý nghĩa thống kê như thế được các nhà nghiên cứu diễn dịch với hàm ý có ý 
nghĩa lâm sàng. 
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Ngược lại, có những nghiên cứu mà kết quả có ý nghĩa lâm sàng nhưng 
vì không đạt ngưỡng chuẩn P < 0.05, nên các nhà nghiên cứu lại diễn dịch 
rằng không có ý nghĩa lâm sàng! Chẳng hạn như một nghiên cứu về hiệu quả 
của bổ sung vitamin C và E ở phụ nữ mang thai [11], các nhà nghiên cứu kết 
luận rằng “Supplementation with vitamin C and E during pregnancy does not 
reduce the risk of serious outcomes in their infants” (Bổ sung vitamin C và E 
không làm giảm các triệu chứng lâm sàng nghiêm trọng). Nhưng khi xét qua 
số liệu thực tế thì thấy ở trẻ em mà mẹ có bổ sung vitamin C và E, tỉ lệ với triệu 
chứng lâm sàng giảm đến 21% (P = 0.06). Chỉ vì P = 0.06 mà các nhà nghiên 
cứu có xu hướng diễn dịch sai kết quả, và sai lắm này rất nghiêm trọng! 
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_>F: A.. 


O7) Văn phạm biểu đồ trong R 


_X 1 ,w 


Y: tố thị giác rất quan trọng. Quả thật, biểu đồ tốt có khả năng gây ấn 








tượng cho người đọc báo khoa học rất lớn, và thường có giá trị đại 

diện cho cả công trình nghiên cứu. Vì thế biểu đồ là một phương tiện 
hữu hiệu nhất để nhấn mạnh thông điệp của bài báo. Biếu đồ thường được 
sử dụng để thể hiện xu hướng và kết quả cho từng nhóm, nhưng cũng có thể 
dùng để trình bày đữ kiện một cách gọn gàng. Các biểu đồ dễ hiểu, nội dung 
phong phú là những phương tiện vô giá. Do đó, nhà nghiên cứu cẩn phải suy 
nghĩ một cách sáng tạo cách thể hiện số liệu quan trọng bằng biểu đổ. Vì thế, 
phân tích biểu đổ đóng một vai trò cực kì quan trọng trong phân tích thống kê. 
Có thể nói, không có đố thị là phân tích thống kê không có nghĩa. 


Trong ngôn ngữ R có rất nhiều cách để thiết kế một biểu đổ gọn và đẹp. 
Phần lớn những hàm để thiết kế biểu đố có sẵn trong R, nhưng một số loại 
biểu đồ tinh vi và phức tạp khác có thể thiết kế bằng các package chuyên dụng 
như 1attice có thể tải từ website của R. Chương này sẽ chỉ cách vẽ các biểu 
đồ thông dụng bằng cách sử dụng các hàm phổ biến trong R. 


7.1 Môi trường và thiết kế biểu đồ 


7.1.1 Nhiều biểu đồ cho một cửa sổ (windows) 


Thông thường, R vẽ một biểu đồ cho một cửa số. Nhưng chúng ta có thể 
vẽ nhiều biểu đồ trong một cửa sổ bằng cách sử dụng hàm par. Chẳng hạn 
như par (m£row=e (1,2) ) có hiệu năng chia cửa sổ ra thành một dòng và 
hai cột, tức là chúng ta có thể trình bày hai biểu đồ kể cạnh bên nhau. Còn 


'lpe/ffelun heploerg 


par (m£frow=e (2, 3) ) chia cửa sổ ra thành 2 dòng và 3 cột, tức chúng ta có 
thể trình bày 6 biểu đồ trong một cửa sổ. Sau khi đã vẽ xong, chúng ta có thể 
quay về với "chế độ” 1 cửa sổ bằng lệnh par (m£row=e (1, 1). 

Ví dụ sau đây tạo ra một đữ liệu gồm hai biến x và y bằng phương pháp 
mô phỏng (tức số hoàn toàn được tạo ra bằng R). Sau đó, chúng ta chia 
cửa sổ thành 2 dòng và 2 cột, và trình bày bốn loại biểu đồ từ dữ liệu được 
mô phỏng: 





> par (m£row=c (2,2) ) 









>N<- 200 
> x# <- runif(N, -4, 4) 
> y <- sin(x) + 0.5*rnorm(N 
> plot(x,y, main="Scatter plot of ÿ and x") 
> hist(x, main=“Histogram of x") 
> boxplot(y, main="Box plot o£ y")} 
> barplot(x, main="Bar chart of x") 
> par (mfrow=c (1,1)) 
Scatter plot of y and x Histogram of x 
2 “seề 3a - | 
..: 3z. - 
nÌý ÊgbÐ đc 2 >ủ 
+ ì | 
¬ D £ @ °ốp 154 
>> SêU ¿, Š'{g.| | 
xj£ szÉ  ° 
1 sẮ p s4 
+2 0s; : — —. 1 
` +..2 0 2 4 
* x 
Box plotofy. Bar chart of x 


Biểu đồ 1. Cách chia cửa sổ thành 2 dòng và 2 cột 
và trình bày 4 biểu đồ trong cùng một cửa sổ. 
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7.1.2 Đặt tên cho trục tung và trục hoành 


Biểu đổ thường có trục tung (y-axis) và trục hoành. Vì dữ liệu thường 
được gọi bằng các chữ viết tắt, cho nên biểu đồ cần phải có tên cho từng biến 
để dễ theo dõi. Trong ví dụ sau đây, biểu đồ bên trái không có tên mà chỉ dùng. 
tên của biến gốc (tức x và y), còn bên phải có tên dễ hiểu hơn. 





> par (m£row=c (1,2)) 
>N<- 200 
>x <—- runif(N, -4, 4) 
> y <- sin(x) + 0.5*rnorm(N 
> plot (x,y) 
> plot(x, y, xlab="X factor", 
y1ab="Production", 
main="Production and x factor \n Second line o£f 
title here") 


> par (m£row=c (1,1)) 


Trong các lệnh trên, x1ab (viết tắt từ x label) và y1ab (viết tắt từ y label) 
dùng để đặt tên cho trục hoành và trục tung. Còn main được dùng để đặt tên 
cho biểu đồ. Chú ý rằng trong main có kí hiệu \n dùng để viết dòng thứ hai 
(nếu tên gọi biểu đồ quá dài). 


Produetion and x factor 
'Second line of title here 





Production 
ˆ 
t 
đ 
tt 
“ức 
cỡ 




















xfactor 
Biểu đồ 2. Biểu đồ bên trái không có tên gọi, 
biểu đồ bên phải có tên gọi cho trục tung, trục hoành và tên của biểu đồ. 
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Ngoài ra, chúng ta còn có thể sử dụng hàm + ¡1e và sub để đặt tên: 
> plot(x, y„ xlab="Time", ylab="Production") 


> title(main="Plot of production and x factor", 
sub="Figure 1") 














Plot of producation and x factor 
r 
sở 
° 
S1 - 
" ° 
nrÌ%» ° Kế. vỗ 
+ % Q9 SẼ dể 
° $o9%s29 2 Sở 
“ao P so S Son 
§ eo NO ĐI ng lạ 
Š s.| 35a z °s8,8 , 8° $ ° 
Ễ cư. ° 5, 
ø xì 
xa .ằ + 
°g o9 ÖÔ 
s SUÀ + 2? 
+4 Kư s 
sa  ° sSg ° 
°” ® sào 
% s ° 
Gì Í ° 
+ 2 0 2 + 
Time 
Pigure 1 


7.1.3 Cho giới hạn của trục tung và trục hoành 


Nếu không cung cấp giới hạn của trục tung và trục hoành, R sẽ tự động 
tìm điểu chỉnh và cho các số liệu này. Tuy nhiên, chúng ta cũng có thể kiểm 
soát biểu đồ bằng cách sử dụng x1 im và y1 im để cho R biết cụ thể giới hạn 
của hai trục này: 


> plot(x, y, xlab="X factor", 
ylab="Production ", 
main="Plot o£ production and x factor", 
xlim=c(~5, 5)„, 


ylim=c(-3, 3)) 





'Rlpe/fielun heploerg 


7.1.4 Thể loại và đường biểu diễn 
Trong một dãy biểu đổ, chúng ta có thể yêu cầu R vẽ nhiều kiểu và đường 
biểu điễn khác nhau. 





























> par (mfrow=c (2,2) ) 
> plot(y, tỉtle ("lines ") 
> plot(y, tit1e ("both") 
> plot(y, tỉt1le("overstruek") 
> plot(y, type="h"); title("high density") 
lines 
2 
' 
>0 
a 
+1 
0 50 100 150 200 
Index 
'overstruekc 
2 2 
' ' 
>0 >0 
1 + 
- kì 
0 50 100 150 200 9 50 100 150 200 
Index Index 


Biểu đồ 3. Kiều biểu đồ và đường biểu diễn. 


Ngoài ra, chúng ta cũng có thể biểu diễn nhiều đường bằng 1 ty như sau: 


> par (m£row=c (2,2)) 





> plot(y, type="1", 1ty=l); title(main="Production data", 














sub="1ty=1") 
> piot(y, type= 1ty=2); title(main="Production data", 
sub="1ty=2 ") 
> plot(y, type 1ty=3); title(main="Production data", 
sub="1ty=3") 


1ty=4); title(main="Production data"”, 
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? 
1 
>0 
_ 
2 
0 50 100 150 200 
Index 
Ry=1 
Production data 
2 
' 
>0 
h 
2 











0 50 100 150 200 


Index 
ly=3 


Biểu đồ 4. Ảnh hưởng của 1 y. 





7.1.5 Màu sắc, khung, và kí hiệu 
Chúng ta có thể kiểm soát màu sắc của một biểu đồ bằng lệnh co1. Giá 
trị mặc định của co1 là 1. Tuy nhiên, chúng ta có thể thay đổi các màu theo 
ý muốn hoặc bằng cách cho số hoặc bằng cách viết ra tên màu như "red'", 
"blue", "green", "orange", "yellow", "cyan",vx... 
Ví dụ sau đây dùng một hàm để vẽ ba đường biểu diễn với ba màu đỏ, 
xanh nước biển, và xanh lá cây: 
> plot(runif (10), ylim=c(0,1), type= !11 
> for (i in c('red', 'blue', 'green")) 
{ 
l1ines(runif (10), col=i ) 
} 


> title (main="Lines in various colours") 
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1Ó 











c3 
š 
sự 
3 
E 
? 4 6 Ũ 10 
Index 


Lưu ý: Do sách được in trắng đen, Quý độc giả vui lòng tham khảo thêm. 
các biểu đổ màu bằng cách nhập lệnh trực tiếp từ sách vào phẩn mềm R. 

Ngoài ra, chúng ta còn có thể vẽ đường biểu diễn bằng cách tăng bề dày 
của mỗi đường: 


> plot(runif(5), ylim=c(0,1), type='n*) 

> for (¡ in 5:1) ( 

1ines( runif(5), col=i, lwd=i ) } 

> title (main="Varying the line thickness") 
'Varying the line thickness 


sỊ 
Š 
s 
Lãi 
asỊ 
1 2 3 4 5s 


Index 
Hình dạng của biểu đổ cũng có thể thay đổi bằng type như sau: 


> op <- par (mfrow=c (3,2)) 
> plot(runif(5), type = 'p1 





1Ø 


runif(5) 





00 
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main = "plot type 'p' (points) ") 
> plot(runif(5), type = `1, 

main = "plot type '1“ (lines) ") 
> plot(runif(5), type = *b”, 



























































main = "plot type *b“ (both points and lines) ") 
> plot(runif(5), type = 's”, 
main = "plot type `s“ (stair steps) ") 
> plot(runif(5), type = *h', 
main = "plot type *h“ (histogram) ") 
> plot(runif(5), type = 'n"*, 
main = "plot type '*n" (no plot)") 
> par (op) 
plot type'p (points) 'plot type TT (lines) 
Š s 
8s sẽ 
Ÿ3† '§ 
Li | 53 
§ $ 
T + „ Š T 
1a 3 4ˆ 9 Ụ. T4* J8 l4. 2 
tndex Index 
plottype'V (both points and lines) plottype'# (stairsteps) 
_ sŠ 
sẻ $š 
j.. = 
bị —{ 8 
1a 3 4 5 1a 3 4 5 
tndex Index 
plot type*F (histogram). plottype'r (no plot) 
.” „3 
Ệ, §§ 
số š§ 
8 | B—i' 3 
s—— ˆ 
Ta 3 4 5 } 2c 9 14.3 
tndec Index 


Khung biểu đồ có thể kiểm soát bằng lệnh bt y với các thông số như sau: 








bty=""a" | Không có vòng khung chung quanh biểu đồ. 


bty=""o" Í Có 4 khung chung quanh biểu đồ. 











'Vẽ một hộp gồm 3 cạnh chung quanh biểu đồ theo hình chữ C 
bty= 'Vẽ hộp 2 cạnh chung quanh biểu đồ theo hình chữ L 
bty="7" | Vẽ hộp 2 cạnh chung quanh biểu đồ theo hình số 7 
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Cách hay nhất để bạn đọc làm quen với các cách vẽ biểu đồ này là bằng 
cách thử trên R để biết rõ hơn. 


Kí hiệu của một biểu đổ cũng có thể thay thế bằng cách cung cấp số cho. 
pch (plotting character) trong R. Các kí hiệu thông dụng là: 


Available symbols 


©O ! ÿ › ý" ®@ se 62 


© ›: @ ° MÑ s ®Ồ ? Vÿ 2z 


> plot(, y„ col="red", pch=l6, bty="1") 








Biểu đồ 5. Ảnh hưởng của pch=16 và co1=" xed",bty="1", 
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7.1.6 Ghi chú (legend) 

Hàm 1egend rất có ích cho việc ghi chú một biểu đồ và giúp người đọc 
hiểu được ý nghĩa của biểu đồ tốt hơn. Cách sử dụng 1egena có thể minh họa 
bằng ví dụ sau đây: 

N <- 200 
x <- runif(N, -4, 4) 


Y <- x + 0.5*rnorm(N) 


> 
> 
> 
> plot(*,y, pch=16, main="Scatter plot of y and x") 
> reg <- Im(y~x) 
> abline (reg) 
> legend(2,-2, c("Production", “Regression line"), 
pch=16, 1ty=c (0,1)) 
Thông số 1egend (2,~2) có nghĩa là đặt phần ghi chú vào trục hoành 
(x-axis) bằng 2 và trục tung (y-axis) bằng -2. 


Scatter plot of y and x 














Biểu đồ 6. Ảnh hưởng của legend. 


'lpe/fielun heploerg 


7.1.7 Viết chữ trong biểu đồ 


Phần lớn các biểu đồ không cung cấp phương tiện để viết chữ hay ghỉ chú 
trong biểu đố, hay có cung cấp nhưng rất hạn chế. Trong R có hàm mtext () 
cho phép chúng ta đặt chữ viết hay giải thích bên cạnh hay trong biểu đồ. 

Bắt đầu từ phía dưới của biểu đồ (siae=1), chúng ta chuyển theo hướng 
kim đồng hồ đến cạnh số 4. Lệnh p1ot trong ví dụ sau đây không in tên của 
trục và tên của biểu đồ, nhưng chỉ cung cấp một cái khung. Trong ví dụ này, 
chúng ta sử dụng eex (character expansion) để kiểm soát kích thước của chữ 
viết. Theo mặc định thì eex=1, nhưng với cex=2, chữ viết sẽ có kích thước 
gấp hai lần kích thước mặc định. Lệnh text () cho phép chúng ta đặt chữ viết 
vào một vị trí cụ thể. Lệnh thứ nhất đặt chữ viết trong ngoặc kép và trung tâm 
tại x=15, y=4. 3. Qua sử dụng adj, chúng ta còn có thể sắp xếp về phía trái 
(adj=0) sao cho tọa độ là điểm xuất phát của chữ viết. 





plot(y, xlab=" ", ylab=" ", type="n") 

> mtext("Text on side 1, cex=l”, side=l,cex=l) 

> mtext("Text on side 2, cex=l.2", side=2,cex=l.2) 

> mtext("Text on side 3, cex=l.5", side=3,cex=l.5) 

> mtext("Text on side 4, cex*2", side=4,cex=2) 

> text(15, 4.3, "text(15, 4.3)") 

> text(35, 3.5, adj“0, “text(35, 3.5), left aligned") 
> text(40, 5, adj“l, “text(40, 5), right aligned") 





teHU3S 35), let aiợneg. 


Ỳ 
lả 
ì Ỹ 
5 
Ễ 





TaTen sốc 1 GĐr=T 
100 
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7.1.8 Đặt kí hiệu vào biểu đồ 

abline () có thể sử dụng để vẽ một đường thẳng, với những thông số 
như sau: 

abline(a,b) : đường hồi qui tuyến tính a = intercept và b = slope. 

abline (h=30) : vẽ một đường ngang tại y = 30. 

abline (v=12) : vẽ một đường thẳng đứng tại điểm x = 12. 

Ngoài ra, chúng ta còn có thể cho vào biểu đồ một mũi tên để ghi chú một 
điểm số liệu nào đó. 

> N<- 200 


>x <- runiF(N, -4, 4) 
> y <- x + 0.5*rnorm(N) 


> plot(x/y, pch=l6, main="Scatter plot of y and x") 
Scatter plot of y and x 

















Giả sử chúng ta muốn ghi chú ngay tại x = 0 và y = 0 là điểm trung 
tâm, chúng ta trước hết dùng arrows để vẽ mũi tên. Trong lệnh sau đây, 
arrows(~1, 1, 1.5, 1.5) có nghĩa như sau tọa độ x = -1, y = 1 bắt đầu 
vẽ mũi tên và chấm dứt tại tọa độ x = 1.5, y= 1.5. Phần text (0, 1) yêu cẩu 
R viết chữ tại tọa độ x = 0, y = 1. 


100. 
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> arrows(-l, 1.0, 1.5, 1.5) 


> text(0, 1, "Trung tam", cex=0.7) 


Scatter plot of y and x 














7.2 Số liệu cho phân tích biểu đồ 


Sau khi đã biết qua môi trường và những lựa chọn để thiết kế một biểu 
đồ, bây giờ chúng ta có thể sử dụng một số hàm thông dụng để vẽ các biểu đồ 
cho số liệu. Biểu đổ có thể chia thành 2 loại chính: biểu đồ dùng để mô tả một 
biến số và biểu đồ về mối liên hệ giữa hai hay nhiều biến số. Tất nhiên, biến 
số có thể là liên tục hay không liên tục, cho nên, trong thực tế, chúng ta có 4 
loại biểu đổ. Trong phần sau đây, chúng ta sẽ điểm qua các loại biểu đồ, từ đơn 
giản đến phức tạp. 
Có lẽ cách tốt nhất để tìm hiểu cách vẽ đồ thị bằng R là bằng một dữ liệu 
thực tế. Quay lại ví dụ 2 trong chương trước, chúng ta có đữ liệu gồm 8 cột 
(hay biến số): id, sex, age, bmi, hđ1, 1đ1, tc, và tơ. (Chú ý, id là mã số 
của 50 đối tượng nghiên cứu; sex là giới tính (nam hay nữ); age là độ tuổi; 
_01 
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bmi là tỉ số trọng lượng; hd1 là high đensity cholesterol; 1d1 là low density 
cholesterol; te là tổng số - total - cholesterol; và tø triglycerides). Dữ liệu 
được chứa trong directory c: \works\insu1in đưới tên cho1 .tx£. Trước 
khi vẽ đồ thị, chúng ta bắt đầu bằng cách nhập dữ liệu này vào R. 

> setwd("c:/works/stats") 

> cong <- read.table ("chol.txt”, header=TRUE, 

na. strings=". ") 

> attach (cong) 

Hay để tiện việc theo dõi chúng ta sẽ nhập các dữ liệu đó bằng các lệnh 
sau đây: 
Sex <- C("Nam", "Nu", "Nu", "Nam", 


“Nam",“Nu", "Nam", "Nam", "Nam", “Nu", 





"Nu”, "Nam", ”Nu”, "Nam", "Nam", “Nu", “Nu", "Nu”, 
“NG", “Nu”, “NU", “NU", “NU", “Nu", "Nam", “Nam”, 
"Nu", "Nam", “"Nu", “Nu", "Nu", "Nam", "Nam", "Nu"”, 
"Nu", "Nam", “Nu","Nam", “Nu", “Nu", "Nam", 


“Nu", "Nam", "Nam", "Nam", “Nu", "Nam", "Nam", "Nu", 





"Nu") 

age <- c(57, 64, 60, 65, 47, 65, 76, 61, 59, 57, 
63, 51, 60, 42, 64, 49, 44, 45, 80, 48, 
61, 45, 70, 51, 63, 54, 57, 70, 47, 60, 
60, 50, 60, 55, 74, 48, 46, 49, 69, 72, 


51, 58, 60, 45, 63, 52, 64, 45, 64, 62) 


bmi <- c( 17, 18, 18, 18, 18, 18, 19, 19, 19, 19, 20, 
20, 20, 20, 20, 20, 21, 21, 21, 21, 21, 21, 
21, 21, 22, 22, 22, 22, 22, 22, 22, 22, 22, 
22, 23, 23, 23, 23, 23, 23, 23, 23, 24, 24, 
24, 24, 24, 24, 25, 25) 
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hd1 <- c(5.000,4.380, 3.360,5.920,6.250,4.150,0.737,7.170, 


6.942,5.000, 


9.110,7.750, 


1đl <- c{2 


4 
4 
2. 
2 


-Õ, 
La 


9, 


tc <-c (4.0, 
4.0, 
7.1, 
5.4, 
5.4, 
3:7; 


tg <= c(1.1, 


1.7, 


2.2, 
3.3, 
2.4, 


3.0, 
5.0, 
4.0, 
4.2, 
4.4, 
1.0, 


3.5, 
6.2, 
3.8, 
4.5, 
6.3, 
6.1, 


2.1, 
1.0, 
ri) 
3.0, 
3.3, 


xẻ 


4.217,4.823, 3.750, 1. 904, 6. 900, 
0.633, 5.530, 6. 625, 5. 960, 3.800, 5. 375, 3. 360, 5. 
2.608, 4.130, 5. 000, 6.235, 3. 600, 5. 625, 5. 360, 6. 
1.545, 6. 440, 6.170, 5.270, 3.220, 5. 400, 6. 300, 


6.200, 7.050, 6. 300, 5.450, 5.000, 
3.360,7.170, 7.880, 7.360,7.750) 


0, 


3:3; 
3.1, 
4. 
4 
4 


3, 


.-3, 
-Ũ, 


4.1, 
4.1, 
4.3, 
5.9, 
8.2, 
6.7, 


0.8, 
1.6, 
1.1, 
1.0, 
2.0, 


cong <- đata.frame (sex, 


ðBón G HP 


4.0, 
1.2, 
3.0, 
4.4, 
4.0, 
4.6, 


Ly”) 
3.0, 
4.8, 
5.6; 
6.2, 
8.1, 


age, 


HN Họ HN 
° 


2.1, 
0.7, 
1.7, 
4.3, 
3.0, 
4.0) 


5.0, 
4.0, 


4.0, 
8.3, 
6.2, 
6.2) 


bmi, 


4 
6 


-0; 
-Ũ, 
-0, 
.3, 
xz 


đo N6 NM 


.-22 
-9 


3.0, 
5.8, 
6.1, 


mon HP 


.5, 
‹0, 
1? 
cv. 


-2z; 


hở1, 


5 
5 


3.0, 3.0, 3.0, 
4.1, 4.3, 4.0, 
2.1, 4.0, 4.1, 
6.0, 3.0, 3.0, 
4.4, 2.8, 3.0, 
.9, 6.1, 5.9, 


+7, 5.T, 5.3, 


3.1, 5.3, 5.3, 
1.6, 5.8, 3.1, 
6.3, 6.0, 4.0, 


HN 8N N N 


*o 
MÔN 0 
ơ 
mm Ơ 0 Ơn 
® 


1đ1, te, tợ) 


000, 
580, 


M8 HH ớ 


1ụ 


.3„ 


5) 


Sau khi đã có số liệu, chúng ta sẵn sàng tiến hành phân tích số liệu bằng 


biểu đồ như sau: 
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7.3 Biểu đồ cho một biến số rời rạc (discrete variable): barplot 

Biến sex trong dữ liệu trên có hai giá trị (nam và nu), tức là một biến 
không liên tục. Chúng ta muốn biết tẩn số của giới tính (bao nhiêu nam và 
bao nhiêu nữ) và vẽ một biểu đổ đơn giản. Để thực hiện ý định này, trước hết, 
chúng ta cần dùng hàm table để biết tần số: 

> sex.freq <- table (sex) 

> sex.freq 

sex 

Nam Nu 

22 28 

Có 22 nam và 28 nữ trong nghiên cứu. Sau đó dùng hàm barp1ot để thể 
hiện tần số này như sau: 

> barplot (sex.freq, main= "Frequeney of males 

and £emales") 

Biểu đồ trên cũng có thể có được bằng một lệnh đơn giản hơn (Biểu đồ 7a): 

> barplot (table(sex), main= "Frequency of males 

and females") 


Frequency of males and females Frequency of males and females 


20 


10 


Nam 





10 15 


Biểu đồ 7a. Biểu đồ 7b. 
Tần số giới tính thể hiện bằng cột số. Tấn số giới tính thể hiện bằng dòng số. 


Thay vì thể hiện tấn số nam và nữ bằng 2 cột, chúng ta có thể thể hiện 
bằng hai dòng bằng thông số horiz =_ TRUE, như sau (xem kết quả trong 
Biểu đồ 7b): 
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> barplot (sex. £red, 
horiz = TRUE, 
col = rainbow (1ength (sex. freq) ) , 


main="Frequency of males and females") 


7.4 Biểu đồ cho hai biến số rời rạc (discrete variable): barplot 


Age là một biến số liên tục. Chúng ta có thể chia bệnh nhân thành nhiều 
nhóm dựa vào độ tuổi. Hàm eut có chức năng “cắt” một biến liên tục thành 
nhiều nhóm rời rạc. Chẳng hạn như: 


> ageg <- cut(age, 3) 
> table (ageg) 
ageg 
(42,54.7] (54.7,67.3]  (67.3,80] 
19 24 H 
Có hiệu quả chia biến age thành 3 nhóm. Tần số của ba nhóm này là: 
42 tuổi đến 54.7 tuổi thành nhóm 1, 54.7 đến 67.3 thành nhóm 2, và 67.3 


đến 80 tuổi thành nhóm 3. Nhóm 1 có 19 bệnh nhân, nhóm 2 và 3 có 24 và 
7 bệnh nhân. 


Bây giờ chúng ta muốn biết có bao nhiêu bệnh nhân trong từng độ tuổi và 
từng giới tính bằng lệnh cab1e: 

> age.sex <- table(sex, ageg) 

> age.sex 

ageg 

sex (42,54.7] (54.7,67.3] (67.3,80] 

Nam 10 10 2 

Nu 9 14 5 


Kết quả trên cho thấy chúng ta có 10 bệnh nhân nam và 9 nữ trong nhóm 
tuổi thứ nhất, 10 nam và 14 nữ trong nhóm tuổi thứ hai, v.v... Để thể hiện tần 
số của hai biến này, chúng ta vẫn dùng barplot: 





> barplot (age.sex, main="Nunber of males and females ín 
each age group") 
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Number of males and fernales in each age group. 


(42547] - (5476731 (673/801 


10 15 
6 8 10 12 14 


5 
3 4 


ø 


IẺ. 


42547] — (547673) — (673/0] 
Age group. 
Biểu đồ 8a. Biều đồ 8b. 
Tần số giới tính và nhóm tuổi Tần số giới tính và nhóm tuổi 
thể hiện bằng cột số. thể hiện bằng hai dòng số. 


Trong Biểu đổ 8a, mỗi cột là cho một độ tuổi, và phần đậm của cột là 
nữ, và phần màu nhạt là tần số của nam giới. Thay vì thể hiện tần số nam nữ 
trong một cột, chúng ta cũng có thể thể hiện bằng 2 cột với beside=T như sau 
(Biểu đổ 8b): 


barplot (age.sex, beside=TRUE, xlab="Age group") 
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ˆ(/ A. 
@® Phân tích dữ liệu bằng biểu đồ 


_— Š& 








đố thị. Cả hai phương pháp đều có thể sử dụng để phân tích mô tả và 

phân tích suy luận. Biểu đồ là một phương tiện phản ảnh dữ liệu rất 
quan trọng. Một biểu đồ nếu được soạn tốt có thể đi vào lịch sử khoa học, hay 
Ít ra cũng xuất hiện vĩnh viễn trên bài báo khoa học và sách giáo khoa. Để có 
một biểu đồ tốt, đòi hỏi người phân tích phải đấu tư khá nhiều thời gian để 
suy nghĩ và soạn. Mỗi loại biểu đồ có mục đích riêng, và đòi hỏi phải suy nghĩ 
cẩn thân để chọn biểu đố thích hợp. 

Biểu đồ khoa học rất phổ biến và xuất hiện dưới nhiều dạng, từ mô tả đến. 
phân tích. Những dạng biểu đổ thông dụng bao gốm: 

« _ Biểu đồ bánh (pie chart) 

« _ Biểu đồ thanh (bar chart) 

« _ Biểu đồ phân bố (histogram) 

« _ Biểu đồ hộp (box plot) 

« _ Biểu đồ tán xạ (scatter plot) 

Ngày nay, rất ít ai sử dụng biểu đồ bánh, biểu đố thanh vì chúng không 
phản ảnh tốt phân bố của dữ liệu. Có người nói thẳng rằng biểu đổ bánh là 
loại vô dụng nhất trong khoa học! 

Để giới thiệu phân tích biểu đồ, chúng ta cần làm quen với đữ liệu insulin. 
txt dưới đây. Dữ liệu về nghiên cửu insulin trên 80 bệnh nhân. Dữ liệu thu 
thập bao gồm: 


P- tích dữ liệu có thể thực hiện qua phân tích thống kê và phân tích 
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id - mã số của đối tượng nghiên cứu 

sex - giới tính (0, 1) 

age - tuổi 

bmi - tỉ trọng cơ thể (cân nặng kg, chia cho chiều cao bình phương m?) 
Đo độ dày của da ở abd (vùng bụng), subscapular (vai), supra-iliac 
(vùng xương chậu), triceps (phần trên của tay) 

Đo chu vi của hc (mông) và wc (eo); 

Nồng độ hải, ldl, tc, tg trong máu. 

Huyết áp tâm trương (điast) và tâm thu (syst) 

Nồng độ insulin, glucose trong máu, và sau cùng là ir (kháng insulin). 


8.1 Biểu đồ phân bố (histogram) 

Chúng ta muốn vẽ một biểu đồ phân bố giá trị của nồng độ hdl. Cách đơn 
giản nhất là dùng hàm hist (hđ1). Tuy nhiên, hàm đơn giản này cần phải 
“trang trí” thêm bằng một số options như tăng số cột và màu: 


hist (hdl, breaks=20, col="blue", border="white") 


Histogram of hd 


10 
ñ 


Frequency. 
6 
L 
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Nhìn qua biểu đổ này, chúng ta thấy chưa hoàn chỉnh. Cần phải thêm. 
nhãn cho trục hoành và trục tung, và nới rộng giới hạn giá trị của trục hoành. 
Ngoài ra, cần phải thêm một tiêu để (main) cho biểu đồ: 





hist(hdl, breaks=20, co 
"HDL Cholesterol", ylai 
"Distribution o£ HDL") 


blue", border="white", 





xa Frequency", x1im=c (0,10), 





mai 





Distribution of HDL 
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HDL Cholesterol 





'Thỉnh thoảng, chúng ta cần một đường biểu diễn mật hân bố (density) 
cho dữ liệu. Chúng ta có thể dùng hàm đensity() cho mục tiêu này. Tuy nhiên, 
cần phải thay đổi trục tung, thay vì là “frequency” để vẽ density chúng ta cần 
đơn vị xác suất với option prob=T: 





hist (hdl, prob=T, breaks=20, col="blue", border="white", 
HDL Cholesterol", ylab="Frequency", x1im=c (0,10), 


Distribution o£ HDL") 








1ines (density (na.omit (hđl)), col="red", 1wd=2) 
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Distribution of HDL 


Frequency 











HOL Cholesterol 


8.2 Biểu đồ hộp (box plot) 

Biểu đồ hộp là một trong những biểu đồ phổ biến nhất trong nghiên 
cứu khoa học. Biểu đồ hộp cung cấp rất nhiều thông tin về phân bố của một 
biến số kèm theo những chỉ số thống kê cơ bản. Biểu đồ hộp dưới đây mô 
tả dữ liệu về lượng mỡ toàn thân (whole body fat mass, đơn vị kg) của 611 
nam và nữ người Việt. Biểu đồ hộp cung cấp cho chúng ta những thông tin 
sau đây: 

« _ Trung vị thể hiện bằng thanh ngang màu đậm. Ở đây, chúng ta thấy số 
trung vị là khoảng 17 kg (chính xác là 16.8 kg). Nói cách khác, có 50% 
đối tượng có lượng mỡ 16.8 kg hoặc thấp hơn, và 50% người có lượng. 
mỡ trên 16.8 kg. Biểu đổ hộp không cung cấp giá trị trung bình, vì nếu 
phân bố của biến tuân theo luật phân phối chuẩn (normal distribution) 
thì trung vị bằng trung bình. 

5 - Bách phân vị thứ 25 (Quartile 1 hay Q1), thanh ngang màu nhạt hơn 
nằm phía dưới của thanh trung vị. Chúng ta thấy Q1 là 13.7 kg. Nói 
cách khác, có 25% đối tượng có lượng mỡ 13.7 kg hoặc thấp hơn. 
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5 _ Bách phân vị thứ 75 (Quartile 3 hay Q3), thanh ngang màu nhạt 
hơn nằm phía trên của thanh trung vị. Chúng ta thấy Q3 là 20.3 
kg. Nói cách khác, có 75% đối tượng có lượng mỡ 20.3 kg hoặc 
thấp hơn. 

„_ Hiệu số giữa Q3 và Q1 được gọi là interquartile range (IQR). Trong ví 
dụ này, IQR = 20.3 - 13.7 = 6.6 kg. 

« Biểu đồ hộp còn có 2 “râu” (hay whisker) phía trên và phía dưới. 
Khoảng cách giữa Q1 và râu đưới là Q1 - 1.5*IQR. Tương tự, khoảng 
cách từ Q3 đến râu trên là Q3 + 1.5*IQR. 

5 _ Những giá trị nằm phía trên của râu trên (tức cao hơn Q3 + 1.5*IQR) 
có thể là giá trị ngoại vi (outlier). Xin nhấn mạnh là chỉ 





ó thể) vì 
chúng ta chưa kiểm định xem những giá trị này thật sự là ngoại vi. 





g+ ° 
LAI ° 
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Trung vị 
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Với những mô tả về biểu đổ hộp trên, chúng ta sẽ sử dụng R vẽ biểu đồ. 
hộp cho đữ liệu đang có. Giả dụ chúng ta muốn xem qua phân bố biến HDL, 
có thể dùng hàm sau đây: 

boxplot (hdl, notch=T, col="blue”, main="") 


Trong hàm trên, hdl là biến cần mô tả. Chúng ta thêm option notch=T để 
biểu đồ có “eo Ngoài ra, col=“blue” là yêu cầu màu của hộp là màu xanh. Kết 
quả của hàm trên là: 
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Biểu đồ trên là đơn biến. Nếu chúng ta muốn so sánh HDL giữa nam và 


nữ, và trong dữ liệu đó là biến “sex” Hàm trên có thể sửa lại như sau: 


boxplot (hdl ~ sex, col="blue", notch=T, names=c ("Men", 


"Women ") 
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Women 
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8.3 Biểu đồ tương quan 

Một trong những biểu đồ phổ biến trong khoa học là biểu đồ tương quan, 
còn gọi là biểu đổ "tán xạ” (scatter plot). Nếu chúng ta muốn biết mối tương 
quan giữa BMI (body mass index) và insulin, một biểu đồ tương quan có thể 
đáp ứng mục tiêu trên. Trong R có hàm đơn giản là plot(insulin ~ bmi); trong 
đó, biến đầu tiên là trục tung (y-axis) và biến thứ hai là trục hoành (x-axis). 
Hai biến được cách nhau bởi đấu ~ (hàm). 

Tuy nhiên, chúng ta có thể thêm nhãn cho biến x và biến y, và kí hiệu biểu 
đồ bằng hàm dưới đây: 

plot(insulin ~ bmi, pch=16, xlab="Body mass index", 

yl1ab="Tnsu1in") 
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Body massindex 


Trong nhiều trường hợp, chúng ta muốn có vài ý tưởng về mối liên quan 
bằng một đường thẳng. Hàm abline có thể đáp ứng mục tiêu đó. Chú ý hàm 
abline thực ra là lấy output từ hàm Im (linear model). Khi hàm lm(insulin ~ bmi) 
chạy, chúng ta sẽ có một phương trình hồi qui tuyến tính insulin = a + b*bmi. 
Giá trị a và b sẽ được abline dùng để vẽ đường biểu diễn: 


abline (1m(insulin ~ bmi)) 
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Biểu đồ trên khá tốt; tuy nhiên, trong package car có hàm scatterp1ot có 
thể vẽ biểu đổ tương quan tốt hơn, và cung cấp cả biểu đồ hộp cho biến x và biến y: 


1ibrary (car) 


scatterplot (insulin ~ bmi, pch=16, smooth=F, col="blue", 
1wd=2, xlab="Body mass index", ylab="Insulin") 
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Giả dụ, chúng ta muốn biết mối liên quan giữa insulin và BMI theo giới 
tính. Đây cũng là một hình thức phân tích tương tác (interaction analysis). 
Biến giới tính trong đữ liệu là sex. Do đó, hàm scatter có thể thêm như sau: 

scatterplot (insulin ~ bmi | sex, pch=c(16, 14), 

smooth=F, col=c("blue", “red"), 1wd=c(1,2), 

xlab="Body mass index"”, ylab="Insulin") 

Kết quả cho thấy mối liên quan giữa insulin và BMI có thể khác biệt giữa 
nam và nữ. 
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8.4 Biểu đồ tương quan đa biến 


Biểu đồ tương quan trên chỉ mô tả mối liên quan giữa 2 biến. Trong nhiều. 
trường hợp, chúng ta muốn biết cùng một lúc mối tương quan của nhiều biến. 
Hàm pairs.panels trong package psych có thể đáp ứng mục tiêu phân 
biến đa biến rất tuyệt vời. Hàm pa i rs.pane1s có thể sử dụng qua 2 bước. 

Bước I là nhập package psych. Sau đó là cho các biến cần phân tích vào 
một đối tượng. Trong ví dụ sau đây, các biến age, bmi, whr, hdl, 1d1, 
insulin, ir được cho vào object có tên là vars. 

1ibrary (psych) 

vars = cbind(age, bmi, whr, hdl, 1đl, insulin, ir) 
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Bước II là áp dụng hàm pairs.panels cho đối tượng vars: 


pairs.panels (vars) 
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Như chúng ta thấy, biểu đồ trên thực chất là một ma trận biểu đổ. Phần. 
dưới của ma trận là biểu đồ tương quan cho từng biến và đường biểu diễn. 
Phần trên của ma trận là hệ số tương quan, với kích thước tăng theo mức độ 
tương quan. Các ô trong đường chéo vẽ phân bố của từng biến. Đây là một 
biểu đồ cung cấp khá nhiều thông tin và có ích. Tuy nhiên, khi số biến tăng thì 
biểu đồ sẽ hơi khó đọc! 


8.5 Biểu đồ với ggplot2 

Có thể xem ggplot2 là một “phần mềnỉ” trong R, vì ggplot2 có các hàm. 
hoàn chỉnh để xây dựng những loại biểu đồ có chất lượng cao. ggplot2 do 
Hadley Wickham phát triển dựa trên triết lí của “The Grammar of Graphics” 
của Wilkinson. Wickham xuất bản một cuốn sách hướng dẫn cách sử dụng 
ggplot2. Trong chương này, tôi sẽ mô tả một số hàm để xây dựng những biểu 
đồ phổ biến trong khoa học. 
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Trong ggplot2 có 2 hàm chính là qplot và ggplot. Hàm qplot chủ yếu 
dành cho những trường hợp vẽ biểu đồ nhanh và không cần “trang trí” nhiểu. 
Hàm ggplot là hàm chính trong ggplot2 dùng để vẽ tất cả các đồ thị đơn giản 
và phức tạp. Để sử dụng ggplot, chúng ta cẩn phải làm quen với một số cú 
pháp và “ngôn ngữ” của ggplot2: 

« _ data là dataframe trong R; 

« _ aesthetic là các biến cần thiết để vẽ và trang trí; 

+ _ geometric object là các đối tượng hình hay dạng biểu đồ; 

+ _ faceting dùng cho trường hợp nhiều biểu đồ; 

Ví dụ như một hàm tiêu biểu của ggplot là: 

P “ ggplot(data=, aes(x=, y=)) 
P * geom yyyy 

trong đó yyy = bar, boxplot, histogram, density, line, abline, area, jitter, 
rug, freqpoly, map, point, quantile, v.V. 

Chú ý trong hàm trên ggplot(data=, aes(x=, y=)) được lưu trữ trong object 
p, và các hàm sau đó chỉ cộng thêm vào p. Đây là một điểm hoàn toàn mới 
của ggplot2. 

Để minh họa cho việc sử dụng qplot xây dựng biểu đồ chúng ta cần phải 
làm việc trên một đữ liệu. Dữ liệu sau đây được đơn giản hoá từ kết quả kiếm 
định PISA liên quan đến học sinh Việt Nam. Dữ liệu bao gốm kết quả kiểm 
tra về môn toán, khoa học, và đọc hiểu cho 4959 học sinh 15 tuổi. Các biến cụ 
thể trong dữ liệu như sau: 

« - REGION là vùng, bao gồm các giá trị CENTRAL, NORTH, SOUTH; 

« _TYPE là loại trường công hay tư, với hai giá trị PUBLIC, PRIVATE; 

«+ AREA là địa điểm của trường, với giá trị REMOTE (vùng sâu xa), 
RURAL (nông thôn) và URBAN (thành thị); 

« - GENDER chỉ giới tính, với hai giá trị Male và Female; 

« - MATH là điểm khả di về môn toán, là một biến liên tục, giá trị từ 200 
đến 850; 

« _ READING là điểm khả dĩ về môn đọc và hiểu, là một biến liên tục, giá 
trị từ 200 đến 850; 

« _ SCIENCE là điểm khả di về môn khoa học, là một biến liên tục, giá trị 
từ 200 đến 850. 
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8.5.1 Biểu đồ phân bố (histogram) 


Chúng ta muốn xem qua phân bố của biến MATH, tức điểm toán của tất 
cả học sinh. Hàm đơn giản nhất là 


qplot (MATR) 


nhưng đổ thị không được đẹp như chúng ta mong đợi. Một cách khác là 
dùng qplot kèm theo hàm geom_histogram: 


qplot (MATH) + geom histogram(col="white", fi11="blue") 


chúng ta sẽ có biểu đồ sau đây: 


500 


400 


count 


200 





Tuy nhiên, qplot không thể vẽ mật độ phân bố. Do đó, để vẽ mật độ phân 
bố, chúng ta phải dùng đến hàm ggplot như sau: 
P = ggplot (data=pisa, aes (MATRH) ) 


P + geom histogram(bindwith=20, aes(y=..density..)„ 
col="white", fi11="blue", 1wd=0.5) 


+ geom_đensity () 


+ labs (x="MATH SCORE", y="Frequency") 
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Phân bố trên là cho tất cả các học sinh. Giả dụ chúng ta muốn có phân bố 
cho từng vùng, và chúng ta cẩn đến facet như sau: 


qplot (MATH, col=AREA, geom="histogram", facets=~AREA) 
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Chúng ta cũng có thể xem qua phân bố điểm toán cho từng vùng và miền 
qua hàm ggplot như sau: 
P ~ ggplot(data=pisa, aes (MATH) ) 


P + geom histogram(binwidth=20, aes(y=..density..), 
col="white", fill="blue", 1wd=0.5) + geom density() 
+ facet grid(REGION ~ AREA) 
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Nhưng thay vì vẽ trong mỗi cửa sổ, chúng ta muốn phân bố điểm toán 
của 3 vùng được vẽ trong cùng một biểu đổ. Hàm qplot hay ggplot có thể giúp 
chúng ta: 

qplot (MATH, geom="density", fi11=AREA, alpha=l(0.5)) + 

opts (1egend.position=" top") 
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Biểu đồ tương tự cũng có thể vẽ bằng hàm ggplot: 
P = ggplot(data=pisa, aes (MATH, fi11=AREA) ) 


P†geom_ density (alpha=0. 5) +labs (x="MATH SCORE", y="Erequency") 


8.5.2 Biểu đồ hộp (boxplot) 


Biểu đồ hộp cũng có thể cung cấp những chỉ số thống kê và cho phép 
chúng ta so sánh giữa các nhóm. Trong biểu đồ hộp đưới đây, chúng ta so sánh 
điểm toán giữa học sinh 3 vùng (Bắc, Trung, và Nam). 

P “ ggplot(data=pisa, aes (x=REGION, y=MATH) ) 

P + geom boxplot () 
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Cũng có thể dùng hàm qplot có thêm màu theo AREA. Ngoài ra, phần 
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8.5.3 Biểu đồ tương quan 
Chúng ta muốn xem mối tương quan giữa điểm đọc hiểu và điểm toán 
cho tất cả các học sinh. Hàm qplot dưới đây có thể đáp ứng mục tiêu đó (chú 
ý stat_smooth(method="lm”) là để vẽ đường biểu diễn): 





th (method="1m") 





qplot (x 
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Nhưng nếu chúng ta muốn xem mối tương quan đó cho từng vùng 
(AREA) thì hàm sau đây sẽ đáp ứng: 

qplot (x=READING, y=MATH, col=AREA) + stat smooth(method= 

“1m") + opEs(1egend.position="top") 
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READING 
Thay vì vẽ 3 vùng trong cùng một biểu đồ, chúng ta có thể tách ra 3 biểu 
đổ bằng hàm facet: 
qplot (x=READING, y=“MATH, col=AREA, facets=~AREA) + 
stat_smooth (method="1m") + opts (legend.position="top") 
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8.5.4 Biểu đồ theo thời gian cho từng cá nhân 

Trong nghiên cứu y khoa, thỉnh thoảng có những nghiên cứu theo dõi bệnh 
nhân theo thời gian. Nói cách khác, mỗi bệnh nhân được đo lường nhiều lần 
trong những điểu kiện can thiệp khác nhau. Mục tiêu đơn giản của những nghiên 
cứu là mô tả sự biến chuyển của một biến theo thời gian cho từng cá nhân. 

Chẳng hạn như dữ liệu dưới đây trích từ một nghiên cứu trên 51 bệnh 
nhân; mỗi bệnh nhân được theo đõi suốt 2 năm, và trong thời gian đó mật độ 
xương cột sống (L1L4) và xương đùi (FNBMD). Chú ý không phải mỗi bệnh 
nhân đều có cùng số lấn đo lường, có người chỉ có 2 lần, nhưng cũng có người 
có 5 lần đo. Dữ liệu đưới đây là một phần của nghiên cứu đó. 




















ÍẢ —  VHẾ — LI4 | FNBMD 
1 1 118 111 
1 s | 119 106 
1 6 116 105 
1 7 140 105 
2 1 138 120 
tả s 135 115 
2 6 1.36 119 
3 1 143 115 
3 4 146 111 
3 s 141 1/09 
3 6 155 1.06 
3 7 154 103 
4 1 149 119 
4 +4 1.52 113 
4 s 148 110 
4 6 | 143 106 
4 7 142 1/05 














Chú ý rằng dữ liệu được sắp xếp theo mô hình dọc, mỗi bệnh nhân (id) xuất 
hiện nhiều lần, và mỗi lần được nhận dạng bằng giá trị của biến visit. Chúng ta 
muốn vẽ biểu đồ với trục hoành là visit và trục tung là LIL4 (mật độ xương), và 
mỗi dòng thể hiện mỗi bệnh nhân. Biểu đố này còn có tên là biểu đồ “spaghetti”. 
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Đọc đữ liệu vào R và gọi là long. Sau đó dùng hàm ggplot dưới đây. Chú ý 
trong option group=id chính là chọn vẽ cho từng cá nhân: 
P = ggplot (data=long, aes(x=visit, y=L1L4, group=id, 


colour = factor(iđ))) 


PÐ † geom line() + opts(legend.text=theme_ text (size=5) ) 


tua 





Tuy nhiên, nếu chúng ta muốn vẽ một biểu đồ với mỗi cửa sổ là dữ liệu 
cho một cá nhân: 


P = ggplot (data=long, aes(x=visit, y=L1L4)) 


Ð † geom point() + geom smooth(method=lm) + facet wrap(~id) 
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Nói tóm lại, R có nhiều hàm có thể vẽ các biểu đồ khoa học có chất lượng, 
tốt. Những biểu đổ được giới thiệu trên đây chỉ là một phần nhỏ trong kho 
tàng đồ thị khổng lồ của R. Có những biểu đồ tinh vi và phức tạp cũng có 
thể xây dựng bằng R nhưng đòi hỏi vài kĩ thuật lập chương trình. Như đã nói 
trong phần đầu, biểu đồ là một bộ phận rất quan trọng trong khoa học và đòi 
hỏi phải có những suy nghĩ và đầu tư thời gian thích đáng. Những biểu đồ 
đơn giản từ Excel hay các phần mềm tương tự chỉ đáp ứng những mục tiêu 
đơn giản, nhưng khó có thể sử dụng cho các mục tiêu khoa học và phân tích 
dữ liệu nghiêm túc. Hi vọng rằng những biểu đồ trên đây sẽ giúp cho bạn đọc 
phát triển thêm những biểu đồ phù hợp cho mỗi mục tiêu đặc thù. 


Tài liệu tham khảo 


« - Wilkinson L. The Grammar of Graphics. Springer-Verlag New York, 
Inc. Secaucus, NÑJ, USA, 2005. 


« _ Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer- 
'Verlag Heidelberg, 2009. 
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@® Phân tích thống kê mô tả 


T chương này, chúng ta sẽ sử dụng R cho mục đích phân tích thống 








kê mô tả. Nói đến thống kê mô tả là nói đến việc mô tả dữ liệu bằng, 

các phép tính và chỉ số thống kê thông thường mà chúng ta đã làm 
quen qua từ thuở trung học như số trung bình (mean), số trung vị (median), 
phương sai (variance), độ lệch chuẩn (standard đeviation)... cho các biến số 
liên tục, và tỉ số (proportion) cho các biến số không liên tục. Nhưng trước khi 
hướng dẫn phân tích thống kê mô tả, bạn đọc nên phân biệt hai khái niệm 
tổng thể (population) và mẫu (sample). 


9.0 Khái niệm tổng thể (population) và mẫu (sample) 


Có thể nói mục tiêu của nghiên cứu khoa học thực nghiệm là nhằm tìm 
hiểu và khám phá những cái chưa được biết (unknown), trong đó bao gồm 
những qui luật hoạt động của tự nhiên. Để khám phá, chúng ta sử dụng đến 
các phương pháp phần loại, so sánh, và phỏng đoán. Tất cả các phương pháp 
khoa học, kể cả thống kê học, được phát triển nhằm vào ba mục tiêu trên. Để 
phân loại, chúng ta phải đo lường một yếu tố hay tiêu chí có liên quan đến vấn 
để cần nghiên cứu. Để so sánh và phỏng đoán, chúng ta cần đến các phương 
pháp kiểm định giả thiết và mô hình thống kê học. 


Cũng như bất cứ mô hình nào, mô hình thống kê phải có thông số. Và 
muốn có thông số, chúng ta trước hết phải tiến hành đo lường, và sau đó là 
ước tính thông số từ đo lường. Chẳng hạn như để biết sinh viên nữ có chỉ số 
thông minh (IQ) bằng sinh viên nam hay không, chúng ta có thể làm nghiên 


cứu theo hai phương án: 
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a.. Một là lập đanh sánh tất cả sinh viên nam và nữ trên toàn quốc, rồi đo. 
lường chỉ số IQ ở từng người, và sau đó so sánh giữa hai nhóm; 

b.. Hai là chọn ngẫu nhiên một mẫu gồm ø nam và z nữ sinh viên, rồi đo 
lường chỉ số IQ ở từng người, và sau đó so sánh giữa hai nhóm. 

Phương án (a) rất tốn kém và có thể nói là không thực tế, vì chúng ta phải 
tập hợp tất cả sinh viên của cả nước, một việc làm rất khó thực hiện được. 
Nhưng nếu chúng ta có thể làm được, thì phương án này không cần đến thống 
kê học. Giá trị IQ trung bình của nữ và nam sinh viên tính từ phương án (a) là 
giá trị cuối cùng, và nó trả lời câu hỏi của chúng ta một cách trực tiếp, chúng 
ta không cần phải suy luận, không cần đến kiểm định thống kê. 

Phương án (b) đòi hỏi chúng ta phải chọn nam và ? nữ sinh viên sao. 
cho đại điện (representative) cho toàn thể sinh viên của cả nước. Tính "đại 
diện” ở đây có nghĩa là các số n nam và zm nữ sinh viên này phải có cùng đặc 
tính như độ tuổi, trình độ học vấn, thành phần kinh tế, xã hội, nơi sinh sống, 
v.v... so với tổng thể sinh viên của cả nước. Bởi vì chúng ta không biết các đặc 
tính này trong toàn bộ tổng thể sinh viên, chúng ta không thể so sánh trực tiếp 
được, cho nên một phương pháp rất hữu hiệu là lấy mẫu một cách ngẫu nhiên. 
Có nhiều phương pháp lấy mẫu ngẫu nhiên đã được phát triển và chúng ta sẽ 
không bàn qua chỉ tiết của các phương pháp nảy, ngoại trừ muốn nhấn mạnh 
rằng, nếu cách lấy mẫu không ngẫu nhiên thì các ước số từ mẫu sẽ không có 
ý nghĩa khoa học cao, bởi vì các phương pháp phân tích thống kê dựa vào giả 
định rằng mẫu phải được chọn một cách ngẫu nhiên. 

Chúng ta sẽ lấy một ví dụ cụ thể về tổng thể và mẫu qua ứng dụng R như 
sau. Ví dụ chúng ta có một tổng thể gốm 20 người và biết rằng chiểu cao của 
họ như sau (tính bằng cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 
159, 164, 150, 162, 168, 165, 156, 157, 154 và 157. Như vậy, chúng ta biết rằng 
chiếu cao trung bình của tổng thể là 158.65 cm. 

'Vì thiếu thốn phương tiện chúng ta không thể nghiên cứu trên toàn tổng 
thể mà chỉ có thể lấy mẫu từ tổng thể để ước tính chiểu cao. Hàm samp1e () 
cho phép chúng ta lấy mẫu. Và ước tính chiếu cao trung bình tử mẫu tất nhiên 
sẽ khác với chiểu cao trung bình của tổng thể. 

+ _ Chọn 5 người từ tổng thể: 
> height = c(162, 160, 157, 155, 167, 160, 161, 153, 
149, 157, 159, 164, 150, 162, 168, 165, 156, 157, 
154, 157) 


> sample5 <- sample(height, 5) 
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> sample5 
[1] 153 157 164 156 149 


Ước tính chiều cao trung bình từ mẫu này: 

> mean (samp1e5) 

[1] 155.8 
Chọn 5 người khác từ tổng thể và tính chiểu cao trung bình: 

> sample5 <- sample(height, 5) 

> sample5 

[1] 157 162 167 161 150 

> mean (samp1e5) 

[1] 159.4 

Chú ý ước tính chiểu cao của mẫu thứ hai là 159.4 em (thay vì 
155.8 cm), bởi vì chọn ngẫu nhiên, cho nên đối tượng được chọn 
lần hai không nhất thiết phải là đối tượng lần thứ nhất, cho nên 
ước tính trung bình khác nhau. 
Bây giờ chúng ta thử lấy mẫu 10 người từ tổng thể và tính chiểu cao 
trung bình: 

> samplel0 <- sample(height, 10) 

> sample10 

(1] 153 160 150 165 159 160 164 156 162 157 

> mean (sample10) 

[1] 158.6 

Chúng ta có thể lấy nhiều mẫu, mỗi mẫu gồm 10 người và ước tính số 
trung bình từ mẫu, bằng một lệnh đơn giản hơn như sau: 

> mean (sample (height, 10)) 

[1] 156.7 

> mean (sample (height, 10)) 

(1] 157.1 

> mean (sample (height, 10)) 

[1] 159.3 

> mean (sample (height, 10)) 

(1] 159.3 

> mean (sample (height, 10)) 

[1] 158.3 

> mean (sample (height, 10)) 


Chú ý độ đao động của số trung bình từ 156.7 đến 159.3 cm. 
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Chúng ta thử lấy mẫu 15 người từ tổng thể và tính chiểu cao 


trung bình: 


> mean (sanp1e (height,„ 
[1] 158.6667 

> mean (samp1e (height, 
[1] 159.4 

> mean (samp1e (height, 
[1] 158.0667 

> mean (samp1e (height, 
[1] 158.1333 

> mean (samp1e (height, 
[1] 156.4667 


15)) 


15)) 


15)) 


15)) 


15)) 


Chú ý độ dao động của số trung bình bây giờ từ 158.0 đến 158.7 cm, 


tức thấp hơn mẫu với 10 đối tượng. 
Tăng cỡ mẫu lên 18 người (tức gần số đối tượng trong tổng thể) 


> mean (samp1e (height, 
(1] 158.2222 

> mean (samp1e (height, 
[1] 158.7222 

> mean (samp1e (height, 
[1] 158.0556 

> mean (samp1e (height, 
(1] 158.4444 

> mean (samp1e (height, 
[1] 158.6667 

> mean (samp1e (height, 
[1] 159.0556 

> mean (sample (height, 
[1] 159 


18)) 


18)) 


18)) 


18)) 


18)) 


18)) 


18)) 


Bây giờ thì ước tính chiều cao khá ổn định, nhưng không khác gì so với 
cỡ mẫu với 15 người, do độ dao động từ 158.2 đến 159 cm. 


Từ các ví dụ trên đây, chúng ta có thể rút ra một nhận xét quan trọng: 


Ước số từ các mẫu được chọn một cách ngẫu nhiên sẽ khác với thông số của 


tổng thể, nhưng khi số cỡ mẫu tăng lên thì độ khác b 


sẽ nhỏ lại dần. Do. 


đó, một trong những vấn để then chốt của thiết kế nghiên cứu là nhà nghiên 
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cứu phải ước tính cỡ mẫu sao cho ước số mà chúng ta tính từ mẫu gần (hay 
chính xác) so với thông số của tổng thể. Tôi sẽ quay lại vấn để này trong 
chương 15. 


Trong ví dụ trên, số trung bình của tổng thể là 158.65 cm. Trong thống kê 
học, chúng ta gọi đó là thông số (parameter). Và các số trung bình ước tính từ 
các mẫu chọn từ tổng thể đó được gọi là ước số mẫu (sample estimate). Do đó, 
xin nhắc lại để nhấn mạnh: những chỉ số liên quan đến tổng thể là thông số, 
còn những số ước tính từ các mẫu là ước số. Như ví dụ trên, ước số có độ dao. 
động chung quanh thông số, và vì trong thực tế chúng ta không biết thông số, 
cho nên mục tiêu chính của phân tích thống kê là sử dụng ước số để suy luận 
về thông số. 

Mục tiêu chính của phân tích thống kê mô tả là tìm những ước số của 
mẫu. Có hai loại đo lường: liên tục (continuous measurement) và không liên 
tục hay rời rạc (discrete measurement). Các biến liên tục như độ tuổi, chiểu 
cao, trọng lượng cơ thể, v.v... là biến số liên tục, còn các biến mang tính phân 
loại như có hay không có bệnh, thích hay không thích, trắng hay đen, v.v... là 
những biến số không liên tục. Cách tính hai loại biến số này cũng khác nhau. 


Ước số thông thường nhất dùng để mô tả một biến số liên tục là số 
trung bình (mean). Chẳng hạn như chiếu cao của nhóm 1 gồm 5 đối tượng 
là 160, 160, 167, 156, và 161, do đó số trung bình là 160.8 cm. Nhưng chiểu 
cao của nhóm 2 cũng gốm 5 đối tượng khác như: 142, 150, 187, 180 và 145, 
thì số trung bình vẫn là 160.8. Do đó, số trung bình không thể phản ánh đẩy 
đủ sự phân phối của một biến liên tục, vì ở đây tuy hai nhóm có cùng trung 
bình nhưng độ khác biệt của nhóm 2 cao hơn nhóm 1 rất nhiều. Và chúng ta 
cẩn một ước số khác gọi là phương sai (variance). Phương sai của nhóm 1 là 
15.7 cm? và nhóm 2 là 443.7 cmề. 


Với một biến số không liên tục như 0 và 1 (0 kí hiệu còn sống, và 1 kí hiệu 
tử vong) thì ước số trung bình không còn ý nghĩa "trung bình” nữa, cho nên 
chúng ta có ước số tỉ lệ (proportion). Chẳng hạn như trong số 10 người có 
2 người tử vong, thì tỉ lệ tử vong là 0.2 (hay 20%). Trong số 200 người có 40 
người qua đời thì tỉ lệ tử vong vẫn là 0.2. Do đó, cũng như trường hợp trung 
bình, tỉ lệ không thể mô tả một biến không liên tục đấy đủ được. Chúng ta 
cần đến phương sai để, cùng với tỉ lệ, mô tả một biến không liên tục. Trong 
trường hợp 2/10 phương sai là 0.016, còn trong trường hợp 40/200, phương 
sai là 0.0008. Trong chương này, chúng ta sẽ làm quen với một số lệnh trong R. 
để tiến hành những tính toán đơn giản trên. 
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9.1 Thống kê mô tả (descriptive statistics, summary) 


Để minh họa cho việc áp dụng R vào thống kê mô tả, chúng ta sẽ sử dụng 
một dữ liệu nghiên cứu có tên là i g£dat+a. Trong nghiên cứu này, ngoài các chỉ 
số liên quan đến giới tính, độ tuổi, trọng lượng và chiếu cao, chúng ta đo lường, 
các hormone liên quan đến tình trạng tăng trưởng như ¡ gfi, ig£bp3, a1 s, và 
các markers liên quan đến sự chuyển hóa của xương p‡np, ictp và pinp. Có 
100 đối tượng nghiên cứu. Dữ liệu này được chứa trong đirectory c: \works`\, 
stats. Trước hết, chúng ta cẩn phải nhập dữ liệu vào R với những lệnh sau 
đây (các câu chữ theo sau dấu # là những chú thích để bạn đọc theo dõi): 


> options (width=100) 





# chuyển directory 
P setwd("c:/works/stats") 


# đọc dữ liệu vào R 


> igfdata <~ read.table ("igf.txt", 


> attach (igfdata) 
# xem xét các cột số trong 





® names (1gfdaEa) | 





JA tra;StEingS=r,!} 
liệt 


























(1] "id" j"sex" “age"[ "WeigRE heigRE""sEhnieïEy' 
[7] "igữ" | "igfbp3" Lá bệ: "ictp" "p3nph 
> igfdata 

id sex age weight heighE IF2S( Tgï[—TgfBp3 
1 1 Female 15 42 162 | Asian 189.000 4.00000 
? 2 Male 16 44 _ 160 Caueasian| 160.000 3.75000 
H 3 Female 15 43 157  Asian 146.833 3.43333 
4 4 Female 15 42 155 Asian| 185.500 3.40000 
5 5 Female 16 4? 167 Asian| 192.333 4.23333 
6 6 Female 25 45 160 Asian| 110.000 3.50000 
l 7 Female 19 45 161  Asian| 157.000 3.20000 
8 8 Female 18 43 153. Asian| 146.000 3.40000 
9 9 Female 15 4i 149 ` Asian 197.667 3.56667 
10 10 Female 24 45 — 157 Africanl 148.000 3.40000 
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97 97 Female 17 S4 168 Caucasian 204.667 4.96667 
98 98 Male 18 55 169 Asian 178.667 3.86667 
55 99 Female 18 48 151 Asian 237.000 3.46667 
100 100 Male 15 54 168 Asian 130.000 2.70000 


iđ alsĨễ pinp ictp p3np 
1 323.667 353.970 11.2867 8.3367 
2 333.750 375.885 10.4300 6.7450 
3 248.333 199.507 8.3633 12.5000 
4 251.000 483.607 13.3300 14.2767 
5 322.000 105.430 7.9233 4.5033 
6 284.667 76.487 4.9833 4.9367 
7 274.000 75.880 6.3500 5.3200 
8 303.000 86.360 7.3700 4.6700 
9 308.500 254.803 11.8700 6.8200 
0 273.000 44.720 3.7400 6.1600 


E9 42 0< Ơn Ơn 0 N 





97 97 441.333 64.130 5.1600 4.4367 
98 98 273.000 185.913 7.5267 8.8333 
99 99. 324.333 105.127 5.9867 5.6600 
100 100 259.333 325.840 10.2767 6.5933 


Trên đây chỉ là một phần số liệu trong số 100 đối tượng. 


Cho một biến số x,,x;,x;,....x„ chúng ta có thể tính toán một số chỉ số 
thống kê mô tả như sau: 
































LÍTHUYẾT HÀMR 
Số trung bình: X l$y ỹ meän (%) 
LÃ] 
„xế Là ~Ó 
Phương sai: s =——>*(x-* var (x) 
n— 
Độ lệch chuẩn: g = sd() 
Sai số chuẩn (standard error): SE = Không có 
Trị số thấp nhất mắn (x) 
Trị số cao nhất. max (%) 
Toàn cự (range) xange (%) 
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Ví dụ 1: Để tìm giá trị trung bình của độ tuổi, chúng ta chỉ đơn giản nhập lệnh: 
> mean (age) 
[1] 19.17 


Hay phương sai và độ lệch chuẩn của tuổi: 


> var (age) 
[1] 15.33444 


> sd{age) 
(1] 3.915922 


Tuy nhiên, R có lệnh summna zy; có thể cho chúng | 
kê về một biến số: 


>_summary (age) 
Min. 1st Qu. Median 'eani Pu uj - [MAK¿ 
13.00 16,00 19 lạ) 21 i 84,00 
Nói chung, kết quả này đơn giản và cách viết tắt cũng có thể để hiểu. Chú 
ý, trong kết quả trên, có hai chỉ số "1st Qu” và “3rd Qu” có nghĩa là ñrst 
quartile (tương đương với vị trí 25%) và third quartile (tương đương với vị trí 
75%) của một biến số. First quartile = 16 có nghĩa là 25% đối tượng nghiên 
cứu có độ tuổi bằng hoặc nhỏ hơn 16 tuổi. Tương tự, Third quartile = 34 có 
nghĩa là 75% đối tượng có đô tuổi bằng hoặc thấp hơn 34 tuổi. Tất nhiên số 
trung vị (median) 19 cũng có nghĩa là 50% đối tượng có độ tuổi 19 trở xuống. 
(hay 19 tuổi trở lên). 


R không có hàm tính sai số chuấn, và trong hàm summary, R cũng không 
cung cấp độ lệch chuẩn. Để có các số này, chúng ta có sử dụng hàm desez ¡be 
trong package psych. 





ít cả thông tin thống. 














1ibrary (psych) 
deseribe (igfdata) 


> describe(igfdata, skew=F, range=F) 





var n mean sử se 
id 1 100 50.50 29.01 2.90 
sex* 2 100 1.31 0.46 0.05 
age 3 100 19,17 3.92 0.39 
weight 4 100 49.91 3.93 0.39 
height 5 100 163.08 7.88 0.79 
ethnicity* 6 100 2.26 0.63 0.06 
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igfi 7 100 165.59 50.13 5.01 


ig£bp3 8100 3.62 0.55 0.06 
als 9 100 301.84 58.99 5.90 
pinp 10 100 167.17 157.67 15.77 
ictp 11 100 71.42 3.75 0.37 
p3np 12 100 6.34 2.77 0.28 


Ngoài ra, describe có thể tóm tắt đữ liệu theo nhóm. Nếu chúng ta 
muốn mô tả dữ liệu trên cho từng giới thì hàm describeBy dưới đây sẽ đáp 
ứng mục tiêu đó: 

> describeBy(igfdata, group=sex, skew=F, range=F) 

group: Female 

var n mean sd se 


iđ 1 69 48.20 29.54 3.56 
sex* 2 69 1.00 0.00 0.00 
aqe 3 69 19.59 3.90 0.47 
weight 469 49.35 3.98 0.48 
height 5 69 161.94 7.94 0.96 
ethnicity* 6 69 2.26 0.56 0.07 
lgfi 7 69 167.97 55.83 6.72 

ig£bp3 8 69 3.70 0.56 0.07 
als 9 69 311.54 61.31 7.38 
pinp 10 69 108.74 88.91 10.70 
ictp 11 69 6.18 2.29 0.28 
pầnp 12 69 5.64 2.24 0.27 





group: Male 


var n mean sa se 
‡đ 131 55.61 27.57 4.95 
sex* 231 2.00 0.00 0.00 
age 3 31 18.23 3.84 0.69 
weight 4 31 51.16 3.57 0.64 
helight 5 31 165.61 7.25 1.30 
ethnicity* 6 31 2.26 0.77 0.14 
igfi 7 31 160.29 34.44 6.19 
ig£fbp3 831 3.44 0.51 0.09 
als 9 31 280.24 47.57 8.54 
pinp 10 31 297.21 196.97 35.38 
+ctp 11 31 10.17 4.80 0.86 
pậnp 12 31 7.90 3.20 0.57 
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R tính toán tất cả các biến số nào có thể tính toán được. Cho nên, ngay 
cả cột ¡d (tức mã số của đối tượng nghiên cứu) R cũng tính luôn! (và chúng 
ta biết kết quả của cột +d chẳng có ý nghĩa thống kê gì). Đối với các biến số 
mang tính phân loại như sex và erhnieity (sắc tộc) thì R chỉ báo cáo tấn 
số cho mỗi nhóm. 

Để xem qua phân phối của các hormones và chỉ số sinh hóa cùng một lúc, 
chúng ta có thể vẽ đồ thị cho tất cả 6 biến số. Trước hết, chia màn ảnh thành 6 
cửa sổ (với 2 dòng và 3 cột); sau đó lần lượt vẽ: 
©p <- par (mfrow=c (2,3) ) 
hist (1gfi) 
hist (igfbp3) 
hist (a1s) 
hist (pinp) 


VVVVvvv 


hist (ictp) 
> hist (p3np) 











































































































'Histogram of igfi Histogram of igfbp3. Hilstogram of als 
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pinp. lap p3np. 
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9.2 Mô tả bằng bảng số liệu (tabular) 

Bảng số liệu là một phương tiện tóm lược đữ liệu rất có ích. Bảng số liệu. 
đơn giản có cột và dòng, nhưng bảng số liệu với nhiều biến có thể có thêm cột 
và dòng trong mỗi nhóm nhỏ. Trong R có hai hàm chính để tóm tắt dữ liệu 
bằng bảng số liệu: 

« _ Hàm CrossTab1le (trong gmode1s) có thể tóm lược hai biến phân 

nhóm (hay categorical variables); 
« _ Hàm tabular (trong tables) có thể tóm lược hai hay nhiểu biến 
phân nhóm hoặc biến liên tục. 

Chúng ta sẽ sử dụng kết quả kiểm định PISA để minh hoạ cho hai hàm 
trên. Xin nhắc lại, dữ liệu PISA có các biến cụ thể như sau: 


« _ REGION là vùng, bao gồm các giá trị CENTRAL, NORTH, SOUTH; 

« _TYPE là loại trường công hay tư, với hai giá trị PUBLIC, PRIVATE; 

«Ò AREA là địa điểm của trường, với giá trị REMOVE (vùng sâu xa), 
RURAL (nông thôn) và URBAN (thành thị); 

« _ GENDER chỉ giới tính, với hai giá trị Male và Female; 

« - MATH là điểm khả đĩ về môn toán, là một biến liên tục, giá trị từ 200 
đến 850; 

« _ READING là điểm khả dĩ về môn đọc và hiểu, là một biến liên tục, giá 
trị từ 200 đến 850; 


« _ SCIENCE là điểm khả di về môn khoa học, là một biến liên tục, giá trị 
từ 200 đến 850. 


9.2.1 Một biến phân nhóm 


Bảng số liệu đơn giản nhất có một biến. Giả dụ chúng ta muốn biết số học 
sinh cho từng vùng, và biến vùng là REGION. Hàm tabular có thể sử dụng 
như sau. Chú ý tabular(REGION ~ 1) có nghĩa là chỉ muốn biết số học sinh. 
cho từng vùng: 

> tabular (REGION~1) 


REGION | All 

CENTRAL 1591 
NORTH 1751 
SOUTH 1617 
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Nhưng nếu chúng ta muốn biết phẩn trăm cho từng vùng, chúng ta cần 
option Percent, nhưng trong trường hợp này chúng ta muốn tính phần trăm 
theo cột. Chú ý “n=1” là yêu cầu trình bày con số học sinh. 


> tabular (REGION~1*(n=1 + Pereent("eo1l"))) 


All 

n 
REGION All Percent 
CENTRAL 1591 32.08 
NORTH 1751 35.31 
SOUTH 1617 32.61 


9.2.2 Hai hay nhiều biến phân nhóm 


Chúng ta muốn biết số học sinh cho từng vùng và từng miền, hàm đơn. 
giản nhất là: 


> tabular (REGION ~ AREA) 


AREA 
REGION REMOTE RURAL URBAN 
CENTRAL 121 771 699 
NORTH 141 865 745 
SOUTH 62 642 913 
Có thể thêm phần trăm cho từng dòng: 


> tabular (REGION ~ AREA*(n=l + Percent("xow"))) 


AREA 
REMOTE RURAL URBAN 
n n n 
REGION All Percent All Percent All PFercent 


CENTRAL 121 7.605 771 48.46 699 43.93 
NORTH 141 8.053 865 49.40 745 42.55 
SOUTH 62 3.834 642 39.70 913 56.46 
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Hoặc phẩn trăm cho từng cột: 
> tabular (REGION ~ AREA*(n=l + Percent("col"))) 


AREA 
REMOTE RURAL URBAN 
n n n 
REGION All Percent All  Percent All Percent 


CENTRAL 121 37.35 771 33.85 699 29.66 
NORTH 141 43.52 865 37.97 745 31.61 
SOUTH 62 19.14 642 28.18 913 38.74 
Trong trường hợp trên, chúng ta chỉ quan tâm đến 2 biến, nhưng tabular 
có khả năng thống kê nhiều hơn 2 biến. Ví dụ như chúng ta muốn đếm số học 
sinh cho từng vùng, miển và loại trường (công hay tư). Có thể dùng “*” để 
thêm biến. Trong ví dụ sau đây, chúng ta lồng miền cho từng vùng: 
> tabular (REGION*AREA ~ TYPE) 


TYPE 
REGION AREA PRIVATE PUBLIC 
CENTRAL REMOTE 0 121 
RURAL 68 703 
URBAN 69 630 
NORTH REMOTE 12 129 
RURAL 68 797 
URBAN 102 643 
SOUTH REMOTE 0 62 
RURAL 44 598 
URBAN 64 849 


Nhưng cũng có thể lồng loại trường trong miền: 
> tabular (REGION ~ AREA*TYPE) 


AREA 

REMOTE. RURAL URBAN 

TYPE TYPE TYPE 
REGION PRIVATE PUBLIC PRIVATE PUBLIC PRIVATE PUBLIC 
CENTRAL 0 121 68 703 69 630 
NORTH 12 129 68 797 102 643 
SOUTH g0 62 44 598 64 849 
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Chú ý trong các bảng số liệu trên không có các chỉ số thống kê như Khi 
bình phương (Chỉ square). Hàm CrossTable (trong gmodels) có thể cung cấp 
chỉ số Ki bình phương: 


> CrossTable (REGION, TYPE, prop.c=T, prop.r=T, prop.t=F, 
prop.chisq=F, chisq=T 


Cell Contents 
I NỊ 


Ị N / Row Total | 
I N / Col Total | 


Total Observations in Table: 4959 


| TYPE 
REGION |  PRIVATE | PUBLIC | Row Total | 
man J====~~====~|[~~~======~~[=====~====~ 
CENTRAL | 137 | 1454 | 1591 | 
I 0.086 | 0.914 | 0.321 | 
I 0.321 | 0.321 | 
~=========== |~=~===~===~|~~~~~~~=~=~|~~~~~~===—= 
NORTH | 182 | 1569 | 1751 | 
| 0.104 | 0.896 | 0.353 
I 0.426 | 0.346 | Ị 
_—=====-=x== |<====~=====|~===========|~==========| 
SOUTH | 108 | 1509 | 1617 | 
I 0.067 | 0.933 | 0.326 | 
I 0.253 | 0.333 | 
~=========== |~=~~~~====~|~=~=~~~=~=~|~~=~~~===—= 
Column Total | 427 | 4532 | 4959 | 
I 0.086 | 0.914 | Ị 
I I I 


Statistics for All Table Factors 


Pearsons Chỉ-squared test 





0.0006285803 
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9.2.3 Biến liên tục 


Biến MATH (điểm toán) là một biến liên tục, và chúng ta muốn biết trung 


bình, độ 





lệch chuẩn cùng với số học sinh cho từng vùng. Hàm tabular có thể 


đáp ứng mục tiêu đó. Chú ý trong hàm dưới đây, đấu “*” dùng để cho thêm các 
chỉ số mà chúng ta cần. Cũng chú ý là n=1 là một cách yêu cầu số đối tượng. 


> tabular (REGION ~ MATH* (n=1+mean+sd) ) 


MATH 

n 
REGION All mean sd 
CENTRAL 1591 513.1 75.99 
NORTH 1751 519.1 90.54 
SOUTH 1617 498.9 81.38 


Chúng ta cũng có thể tính toán các chỉ số thống kê mô tả cho từng vùng, 


và loại trường: 


> tabular (REGION*TYPE ~ MATH* (n=l+mean+sd) ) 


MATH 
n 
REGION TYPE All mean sd 
CENTRAL PRIVATE 137 467.9 60.12 
PUBLIC 1454 517.4 75.96 
NORTH PRIVATE 182 471.4 63.36 
PUBLIC 1569 524.7 91.60 
SOUTH PRIVATE 108 486.3 52.51 
PUBLIC 1509 499.8 83.00 


Nhưng thay vì trình bày loại trường theo dòng, chúng ta có thể trình bày 


theo cột: 
> tabular (REGION ~ TYPE*MATH* (n=l+mean+sd) ) 


TYPE 

PRIVATE PUBLIC 

MATH MATH 

n n 
REGION All mean sd All mean sử 
CENTRAL 137 467.9 60.12 1454 517.4 75.96 
NORTH 182 471.4 63.36 1569 524.7 91.60 
SOUTH 108 486.3 52.51 1509 499.8 83.00 
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Hàm tabular có thể tóm tắt nhiếu biến cùng một lúc. Trong hàm dưới đây, 
chúng ta tóm tắt MATH và READING cho tửng vùng và loại trường: 


> tabular (REGION*TYPE ~ (MATH + READING) *(n=l+mean+sd) ) 


MATH READING 
n n 
REGION TYPE All mean sẻ All mean sở 


CENTRAL PRIVATE 13? 467.9 60.12 137 464.5 58.14 
PUBLIC 1454 517.4 75.96 1454 516.3 67.65 

NORTH PRIVATE 182 471.4 63.36 182 474.6 54.19 
PUBLIC 1569 524.7 91.60 1569 514.6 76,67 

SOUTH PRIVATE 108 486.3 52.51 108 491.0 46.00 
8 2 


PUBLIC 1509 499.8 83.00 1509 503.2 72.39 


“Tóm lại, hàm tabular (trong tables) rất có ích trong việc tóm tắt dữ liệu 
phân nhóm và các biến liên tục. Trong thực tế, hàm tabular có thể tạo ra bảng 
số liệu dưới dạng LATEX và PDE Tuy nhiên, phần này tôi để cho bạn đọc tự 
khám phá. 


9.3 Kiểm định xem một biến có phải phân bố chuẩn 


“Trong phân tích thống kê, phần lớn các phép tính dựa vào giả định biến 
số phải là một biến số phân phối chuẩn (normal distribution). Do đó, một 
trong những việc quan trọng khi xem xét đữ kiện là phải kiểm định giả thiết 
phân phối chuẩn của một biến số. Trong đồ thị trên, chúng ta thấy các biến số 
như igfi, pinp, ictp và p3np có vẻ tập trung vào các giá trị thấp và không 
cân đối, tức dấu hiệu của một sự phân phối không chuẩn. 

Để kiểm định nghiêm chỉnh, chúng ta cần phải sử dụng kiểm định thống 
kê có tên là “Shapiro test” và trong R gọi là hàm shapi ro. cest. Chẳng hạn 
như kiểm định giả thiết phân phối chuẩn của biến số pì np. 

> shapiro. test (pinp) 

Shapiro-Wilk normality test 
data: pinp 

W = 0.748, p-value = 8.314e-12 


Vì trị số p (p-value) thấp hơn 0.05, chúng ta có thể kết luận rằng biến số 
binp không đáp ứng luật phân phối chuẩn. 
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Nhưng với biến số weight (trong lượng cơ thể) thì kiếm định này cho 
biết đây là một biến số tuân theo luật phân phối chuẩn vì trị số p > 0.05. 

> shapiro.test (weight) 

Shapiro-Wi1k normality test 

data: weight 

W = 0.9887, p-value = 0.5587 

“Thật ra, kết quả trên cũng phù hợp với đồ thị của weight: 

> hist (weight) 























SRI - 
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9.4 Kiểm định t (t.test) 

Kiểm định t dựa vào giả thiết phân phối chuẩn. Có hai loại kiểm định 
t: kiểm định t cho một mẫu (one-sample t-test), và kiểm định t cho hai mẫu 
(two-sample t-test). Kiểm định t một mẫu nhằm trả lời câu hỏi dữ liệu từ một 
mẫu có phải thật sự bằng một thông số nào đó hay không. Còn kiểm định t hai 
mẫu thì nhằm trả lời câu hỏi hai mẫu có cùng một luật phân phối, hay cụ thể 
hơn là hai mẫu có thật sự có cùng trị số trung bình hay không. Tôi sẽ lấn lượt 
minh họa hai kiểm định này qua số liệu i g£data trên. 


9.4.1 Kiểm định t một mẫu 


Ví dụ 2: Qua phân tích trên, chúng ta thấy tuổi trung bình của 100 đối 
tượng trong nghiên cứu này là 19.17 tuổi. Chẳng hạn như trong quần thể này, 
trước đây chúng ta biết rằng tuổi trung bình là 30 tuối. Vấn để đặt ra là có phải 
mẫu mà chúng ta có được có đại diện cho quấn thể hay không. Nói cách khác, 
chúng ta muốn biết giá trị trung bình 19.17 có thật sự khác với giá trị trung 
bình 30 hay không. 
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Để trả lời câu hỏi này, chúng ta sử dụng kiểm định t. Theo lí thuyết thống 
kê, kiểm định t được định nghĩa bằng công thức sau đây: 


t = _ 
s/Ýn 

Trong đó, x là giá trị trung bình của mẫu, Hư là trung bình theo giả thiết 
(trong trường hợp này, 30), s là độ lệch chuẩn, và ø là số lượng mẫu (100). 
Nếu giá trị t cao hơn giá trị lí thuyết theo phân phối t ở một tiêu chuẩn có 
ý nghĩa như 5% chẳng hạn thì chúng ta có lí do để phát biểu khác biệt có ý' 
nghĩa thống kê. Giá trị này cho mẫu 100 có thể tính toán bằng hàm qt của 
R như sau: 

> qt(0.95, 100) 

[1] 1.660234 


Nhưng cỏ một cách tính toán nhanh gọn hơn để trả lời câu hỏi trên, bằng 
cách dùng hàm t . test như sau: 








> t.test(age, mu=30) 


One Sample t~test 








daEa: age ] 

t= -27.6563, df = 99, p-value < 2.26=I1E ———] 

alternative hypothesis: true mean $à| maE equal Eø 50 

95 percent confidence interval: 

18,39300 19.94700 
sample estimates: 
mean of x 
19.17 

Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị 
giả thiết. R trình bày trị số t = -27. 66, với 99 bậc tự do, và trị số p < 2.2e-16 
(tức rất thấp). R cũng cho biết độ tin cậy 95% của age là từ 18.4 tuổi đến 19.9 
tuổi (30 tuổi nằm quá ngoài khoảng tin cậy này). Nói cách khác, chúng ta có 
lí do để phát biểu rằng độ tuổi trung bình trong mẫu này thật sự thấp hơn độ 
tuổi trung bình của quần thể. 
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9.4.2 Kiểm định t hai mẫu 

Ví dụ 3: Qua phân tích mô tả trên (phấn s:+zmmary) chúng ta thấy phụ nữ 
có độ hormone i gfi cao hơn nam giới (167.97 và 160.29). Câu hỏi đặt ra là có 
phải thật sự đó là một khác biệt có hệ thống hay do các yếu tố ngẫu nhiên gây. 
nên. Trả lời câu hỏi này, chúng ta cần xem xét mức độ khác biệt trung bình 
giữa hai nhóm và độ lệch chuẩn của độ khác biệt. 





SED 


Trong đó +, và 1; là số trung bình của hai nhóm nam và nữ, và SED là độ 
lệch chuẩn của (%, - #,). Thực ra, $ED có thể ước tính bằng công thúc: 


SED = \[SE) + SE} 








“Trong đó SE, và $E, là sai số chuẩn (standard error) của hai nhóm nam và 
nữ. Theo lí thuyết xác suất, tuân theo luật phân phối f với bậc tự do m +; —2, 
trong đó n, và n, là số mẫu của hai nhóm. Chúng ta có thể dùng R để trả lời 
câu hỏi trên bằng hàm +. test như sau: 


> t.test(igfi~ sex) 
Welch Two Sample t-test 


data: igfi by sex 
t= 0.8412, df = 88.329, p-value = 0.4025 


alternative hypothesis: true difference in means is not 
equal to 0 


95 percent confidence interval: 
~10.46855 25.83627 
sample estimates: 
mean in group Female  mean in group Male 
160.2903 
R trình bày các giá trị quan trọng trước hết: 
t= 0.8412, df = 88.329, p-value = 0.4025 
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d£ là bậc tự do. Trị số p = 0.4025 cho thấy mức độ khác biệt giữa hai 

nhóm nam và nữ không có ý nghĩa thống kê (vì cao hơn 0.05 hay 5%). 
95 percent confidence interval: 
-10.46855 25.83627 

là khoảng tin cậy 95% về độ khác biệt giữa hai nhóm. Kết quả tính 
toán trên cho biết độ ig£ ở nữ giới có thể thấp hơn nam giới 10.5 ng/L 
hoặc cao hơn nam giới khoảng 25.8 ng/L. Vì độ khác biệt quá lớn và đó 
là thêm bằng chứng cho thấy không có khác biệt có ý nghĩa thống kê giữa 
hai nhóm. 

Kiếm định trên dựa vào giả thiết hai nhóm nam và nữ có khác phương sai. 
Nếu chúng ta có lí do để cho rằng hai nhóm có cùng phương sai, chúng ta chỉ 
thay đối một thông số trong hàm t với var .equa1=TRUE như sau: 


> t.test(igfi~ sex, var.equal=TRUE) 
Two Sample t-test 


data: igfíi by sex 
ti“ 0/7071, d£ = 98, p-value = 0.4812 


alternative hypothesis: true đifference in means is not 
equal to 0 


95 percent confidence interval: 
-13.88137 29.24909 
sample estimates: 
mean in group Female mean in group Male 
1671.9741 160.2903 


'Về mặt số, kết quả phân tích trên có khác chút ít so với kết quả phân tích 
dựa vào giả định hai phương sai khác nhau, nhưng trị số p cũng đi đến một kết 
luận rằng độ khác biệt giữa hai nhóm không có ý nghĩa thống kê. 


9.5 So sánh phương sai (var.test) 


Bây giờ chúng ta thử kiểm định xem phương sai giữa hai nhóm có khác 
nhau không. Để tiến hành phân tích, chúng ta chỉ cần lệnh: 


'Rlpe/ffelun heploerg 





> var.test (1gfi [ sex] 
F test to compare two varliances 


đata: lợi By sex 
E = 2.6274, num df = 68, denom đf = 30, p-value = 0.004529 


alternative hypothesis: true ratio of variances is not 
equal to 1 


95 percent confidence interval: 
1.366187 4.691336 
sample estimates: 
ratio o£ variances 
2.627396 
Kết quả trên cho thấy độ khác biệt vế phương sai giữa hai nhóm cao 
2.62 lần. Trị số p = 0.0045 cho thấy phương sai giữa hai nhóm khác nhau có 
ý nghĩa thống kê. Như vậy, chúng ta chấp nhận kết quả phân tích của hàm. 
t.test(igfi~ sex). 


9.6 Kiểm định Wilcoxon cho hai mẫu (wilcox.test) 

Kiểm định t dựa vào giả thiết là phân phối của một biến phải tuân theo. 
luật phân phối chuẩn. Nếu giả định này không đúng, kết quả của kiểm định L 
có thể không hợp lí (valid). Để kiểm định phân phối của i gíi, chúng ta có thể 
dùng hàm shap1 ro. test như sau: 


> shapiro.test (igfi) 
Shapiro-Wilk normality test 


data: lgñi 

W = 0.8528, p-value = 1.504e-08 

Trị số p nhỏ hơn 0.05 rất nhiều, cho nên chúng ta có thể nói rằng phân 
phối của ¡ gíi không tuân theo luật phân phối chuẩn. Trong trường hợp này, 
việc so sánh giữa hai nhóm có thể dựa vào phương pháp phi tham số (non- 
parametric) có tên là kiểm định Wilcoxon, vì kiểm định này (không như kiểm. 
định t) không tùy thuộc vào giả định phân phối chuẩn. 
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> wilcox.test (igii ~ sex) 
Wilcoxon rank sum test with continuity correction 


data: igii by sex 
W = 1125, p-value = 0.6819 


alternative hypothesis: true mu is not equal to 0 


Trị số p = 0.682 cho thấy quả thật độ khác biệt về ¡ gíi giữa hai nhóm nam 
và nữ không có ý nghĩa thống kê. Kết luận này cũng không khác với kết quả 
phân tích bằng kiểm định t. 


9.7 Kiểm định t cho các biến số theo cặp (paired t-test, t.test) 


Kiểm định t vừa trình bày trên là cho các nghiên cứu gồm hai nhóm độc 
lập nhau (như giữa hai nhóm nam và nữ), nhưng không thể ứng dụng cho các 
nghiên cứu mà một nhóm đối tượng được theo đõi theo thời gian. Chúng ta 
tạm gọi các nghiên cứu này là nghiên cứu theo cặp. Trong các nghiên cứu này, 
chúng ta cần sử dụng một kiểm định t có tên là paired t-test. 


Ví dụ 4: Một nhóm bệnh nhân gồm 10 người được điểu trị bằng một loại 
thuốc nhằm giảm huyết áp. Huyết áp của bệnh nhân được đo lúc khởi đấu 
nghiên cứu (lúc chưa điểu trị), và sau khi điểu trị. Số liệu huyết áp của 10 bệnh 
nhân như sau: 








Trước khi điều trị J | 139, 149, 169, 160, 220, 185, 145, 160, 160, 170 





Sáukhi điều W{Wj | !ro, i45, lá, 125, 205, l65, l50, 150, 145, 155 


Câu hỏi đặt ra là độ biến chuyển huyết áp trên có đủ để kết luận rằng 
thuốc điểu trị có hiệu quả giảm huyết áp. Để trả lời câu hỏi này, chúng ta dùng 
kiểm định t cho từng cặp như sau: 

> # nhập đữ kiện 

> before <- c(180, 140, 160, 160, 220, 185, 145, 160, 160, 170) 

> after <- c(170, 145, 145, 125, 205, 185, 150, 150, 145, 155) 

> bp <- data.frame(before, after) 

> # kiểm định t 


> t.,test(before, after, paired=TRUE) 
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Paired t-test 


data: before and after 
t= 2.7924, df = 9, p-value = 0.02097 


alternative hypothesis: true đifference in means is not 
equal to 0 


95 percent confidence interval: 
1.993901 19.006099 
sample estimates: 
mean o£ the differences 
10.5 

Kết quả trên cho thấy sau khi điểu trị áp suất máu giảm 10.5 mmHg, và 
khoảng tin cậy 95% là từ 2.0 mmHg đến 19 mmHg, với trị số p=0.0209. Như 
vậy, chúng ta có bằng chứng để phát biểu rằng mức độ giảm huyết áp có ý 
nghĩa thống kê. 

Chú ý nếu chúng ta phân tích sai bằng kiểm định thống kê cho hai nhóm. 
độc lập dưới đây thì trị số p = 0.32 cho biết mức độ giảm áp suất không có ý. 
nghĩa thống kê. 


> t.test(before, after) 
Welch Two Sample t-test 


data: before and after 
t= 1.0208, df = 17.998, p-value = 0.3209 


alternative hypothesis: true difference in means is not 
equal to 0 


95 percent confidence interval: 
~11.11065 32.11065 

sample estimates: 

mean o£ x mean o£ ÿ 


168.0 157.5 
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9.8 Kiểm định Wilcoxon cho các biến số theo cặp (wilcox.test) 

Thay vì dùng kiểm định t cho từng cặp, chúng ta cũng có thể sử dụng hàm 
wi1cox. test cho cùng mục đích: 

> wilcox.test(before, after, paired=TRUE) 

Wilcoxon signed rank test with continuity correction 

data: before and after 

V = 42, p-value = 0.02291 

alternative hypothesis: true mu is not equal to 0 

Kết quả trên một lần nữa khẳng định rằng độ giảm áp suất máu có ý nghĩa 
thống kê với trị số (p=0.023) chẳng khác mấy so với kiểm định t cho từng cặp. 


9.9 Tần số (frequency) 
Hàm table trong R có chức năng cho chúng ta biết về tần số của một 
biến số mang tính phân loại như sex và ethnici ty. 
> table (sex) 
sex 
Female Male 
69 31 


> table (ethnicity) 


ethnicity 
African Asian Caucasian Others 
8 60 30 2 


Một bảng thống kê 2 chiều: 


> table(sex, ethnicity 


ethnicity 

sex African Asian Caucasian Others 
Female 4.43 22 0 
Male 4 17 8 2 


Chú ý trong các bảng thống kê trên, hàm tab1e không cung cấp cho chúng 
ta số phần trăm. Để tính số phần trăm, chúng ta cần đến hàm prop..table 
và cách sử dụng có thể minh hoạ như sau: 
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# tạo ra một object tên là freqg để chứa kết quả tấn số 


v 


freq <- table(sex, ethnicity) 


Ÿ kiểm tra kết quả 


> freq 
ethnicity 

sex African Asian Caucasian Others 

Female 4 43 22 0 

Male 4 17 8 2 


# dùng hàm margin.table để xem kết quả 
> margin.table(freg, 1) 
sex 
Female  Male 
69 31 


> margin.table(freq, 2) 


ethnicity 
African Asian Caucasian Others 
8 60 30 2 


# tính phần trăm bằng hàm prop.table 
> prop.table(freq, 1) 
ethnicity 
sex African Asian Caucasian Others 
Female 0.05797101 0.62318841 0.31884058 0.00000000 


Male 0.12903226 0.54838710 0.25806452 0.06451613 


Trong bảng thống kê trên, zop.. ©ab1e tính tỉ lệ sắc tộc cho từng giới 
tính. Chẳng hạn như ở nữ giới (female), 5.8% là người châu Phi, 62.3% là 
người châu Á, 31.8% là người Tây phương da trắng. Tổng cộng là 100%. Tương, 
tự, ở nam giới tỉ lệ người châu Phi là 12.9%, châu Á là 54.8%, v.v.. 


# tính phần trăm bằng hàm prop.table 
> prop.table(fredq, 2) 
ethnicity 
sex African Asian Caucasian Others 
Female 0.5000000 0.7166667 0.7333333 0.0000000 


Male 0.5000000 0.2833333 0.2666667 1.0000000 
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Trong bảng thống kê trên, prop.able tính tỉ lệ giới tính cho từng sắc 
tộc. Chẳng hạn như trong nhóm người châu Á, 71.7% là nữ và 28.3% là nam. 

# tỉnh phân trăm cho toàn bộ bảng 

> £freq/sum(freg) 


ethnicity 
sex African Asian Caucasian Others 
Female 0.04 0.43 0.22 0.00 
Male 0.04 0.17 0.08 0.02 


9.10 Kiểm định tỉ lệ (proportion test, prop.test, binom.test) 

Kiểm định một tỉ lệ thường dựa vào giả định phân phối nhị phân (binomial 
đdistribution). Với một số mẫu ø và tỉ lệ p, và nếu n lớn (tức hơn 50 chẳng hạn), 
thì phân phối nhị phân có thể tương đương với phân phối chuẩn với số trung 
bình np và phương sai np(1 - p). Gọi x là số biến cố mà chúng ta quan tâm, 
kiểm định giả thiết p = có thể sử dụng thống kẻ sau đây: 





ˆ \hz0=z) 


Ở đây, z tuân theo luật phân phối chuẩn với trung bình 0 và phương sai 
1. Cũng có thể nói Z? tuân theo luật phân phối Khi bình phương với bậc tự do. 
bằng 1. 


Ví dụ 5: Trong nghiên cứu trên, chúng ta thấy có 69 nữ và 31 nam. Như vậy 
tử lệ nữ là 0.69 (hay 69%). Để kiểm định xem tỉ lệ này có thật sự khác với tỉ lệ 
0.5 hay không, chúng ta có thể sử dụng hàm prop.test (x, n„ 7) như sau: 


> prop.test (69, 100, 0.50) 





1~sample proportions test with continuity correction 


data: 69 out of 100, null probability 0.5 
X-squared = 13.69, đf = 1, p-value = 0.0002156 
alternative hypothesis: true p is not equal to 0.5 
95 percent confidence interval: 
0.5885509 0.7766330 
sample estimates: 

P 
0.69 
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Trong kết quả trên, prop.. test ước tính tỉ lệ nữ giới là 0.69, và khoảng 
tin cậy 95% là 0.588 đến 0.776. Giá trị Khi bình phương là 13.69, với trị số 
Pp = 000216. Như vậy, nghiên cứu này có tỉ lệ nữ cao hơn 50%. 

Một cách tính chính xác hơn kiểm định tỉ lệ là kiểm định nhị phân 
bionom.test (x, n, 7) như sau: 

> binom.test(69, 100, 0.50) 

Exact binomial test 

data: 69 and 100 

number of successes=69, number of trials=l00, 

P-value=0 0001831 


alternative hypothesis: true probability of success is 
not equal to 0.5. 95 percent confidence interval: 


0.5896854 0.7787112 
sample estimates - probability of success: 0.69 


Nói chung, kết quả của kiểm định nhị phân không khác gì so với kiểm 
định Khi bình phương, với trị số p = 0.00018, chúng ta càng có bằng chứng để 
kết luận rằng tỉ lệ nữ giới trong nghiên cứu này thật sự cao hơn 50%. 


9.11 So sánh hai tỉ lệ (prop.test, binom.test) 


Phương pháp so sánh hai tỉ lệ có thể khai triển trực tiếp từ lí thuyết kiểm 
định một tỉ lệ vừa trình bày trên. Cho hai mẫu với số đối tượng n, và n„„ và số 
biến cố là x, và x,. Do đó, chúng ta có thể ước tính hai tỉ lệ p, và p,. Lí thuyết 
xác suất cho phép chúng ta phát biểu rằng độ khác biệt giữa hai mẫu đ = p, - p, 
tuân theo luật phân phối chuẩn với số trung bình 0 và phương sai bằng: 


".~[_*„a-® 


Trong đó: 
ø= x.x, 
n.+n, 


Do đó, z = đ/V, tuân theo luật phân phối chuẩn với trung bình 0 và phương, 
sai 1. Nói cách khác, z tuân theo luật phân phối Khi bình phương với bậc tự 
do bằng 1. Do đó, chúng ta cũng có thể sử dụng prop. test để kiểm định 
hai tỉ lệ. 
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Ví dụ 6: Một nghiên cứu được tiến hành so sánh hiệu quả của thuốc chống 
gãy xương. Bệnh nhân được chia thành hai nhóm: nhóm A được điểu trị gồm. 
có 100 bệnh nhân, và nhóm B không được điểu trị gồm 110 bệnh nhân. Sau 
thời gian 12 tháng theo đõi, nhóm A có 7 người bị gãy xương, và nhóm B có 
20 người gãy xương. Vấn để đặt ra là tỉ lệ gãy xương trong hai nhóm này bằng 
nhau (tức thuốc không có hiệu quả)? Để kiểm định xem hai tỉ lệ này có thật sự 
khác nhau, chúng ta có thể sử dụng hàm prop.test(x, n„ ) như sau: 

> fracture <- c(7, 20) 

> total <- c(100, 110) 

> prop.test(fracture, total) 


2-sample test for equality of proportions wíth 








dãaEã: fFaeEuFE øuE øf E6EäI 

X-squared = 4.8901, df = 1, p-value = 0.02701 

alternative hypothesis: two.sided 

95 percent confidence interval: 

~0.20908963 =0.01454673 
sample estimates: 
Prop 1 prop 2 

0.0700000 0.1818182 

Kết quả phân tích trên cho thấy tỉ lệ gây xương trong nhóm 1 là 0.07 và 
nhóm 2 là 0.18. Phân tích trên còn cho thấy xác suất 95% rằng độ khác biệt giữa 
hai nhóm có thể từ 0.01 đến 0.20 (tức 1 đến 20%). Với trị số p=0.027, chúng ta 
có thể nói rằng tỉ lệ gãy xương trong nhóm A quả thật thấp hơn nhóm B. 


9.12 So sánh nhiều tỉ lệ (prop.test, chisq.test) 


Kiểm định pzop.. test còn có thể sử dụng để kiểm định nhiều tỉ lệ cùng, 
một lúc. Trong nghiên cứu trên, chúng ta có 4 nhóm sắc tộc và tần số cho từng. 
giới tính như sau: 


> table(sex, ethnicity, 


ethnicity 
sex African Asian Caucasian Others 
Eemale 4 43 22 0 
_Male _ 4 17 = 8 2 
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Chúng ta muốn biết tỉ lệ nữ giới giữa 4 nhóm sắc tộc có khác nhau hay 
không, và để trả lời câu hỏi này, chúng ta lại dùng prop.. cest như sau: 

> female <- c( 4, 43, 22, 0} 

> total <- c(8, 60, 30, 2) 

> prop.test(female, total) 


4-sample test for equality of proportions without continuity 
correction 


X-squared = 6.2646, d£f 
alternative hypothesis: 


0109942 


đãEã: female 6IE 6f E6EäI 
k-|2,sib = 





two,sided  —- 
sample estimates: 
EFSP 1 PFSP 2 PFSP 3 PFSP 4 

0,5000000 0.7166667 0.,7333333 0.0000000 

Warning message: 

Chỉi-squared approximation may be incorrect in: 

Prop.test(female, total) 

Tuy tỉ lệ nữ giới giữa các nhóm có vẻ khác nhau lớn (73% trong nhóm 3 
(người da trắng) so với 50% trong nhóm 1 (châu Phi) và 71.7% trong nhóm. 
châu Á, nhưng kiểm định Chí bình phương cho biết trên phương diện thống 
kê, các tỉ lệ này không khác nhau, vì trị số p = 0.099. 





9.12.1 Kiểm định Khi bình phương (Chi-squared test, chisq.test) 

Thật ra, kiểm định Khi bình phương còn có thể tính toán bằng hàm 
chỉsq. test như sau: 

> chisq.test(sex, ethaicity) 


Pearson"s Chi-squared test 


data: sex and ethnicity 
X-squared = 6.2646, df = 3, p-value = 0.09942 


Warning message: 

Chi-squared approximation may be incorrect| in: 

chisq.test(sex, ethnicity)} L 
test. 


Kết quả này hoàn toàn giống với kết quả từ hàm prop.. 
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9.12.2 Kiểm định Fisher (Fishers exact test, fisher.test) 

Trong kiểm định Khi bình phương trên, chúng ta chú ý cảnh báo: 

"Warning message: 

Chi-squared approximation may be incorrect in: 

prop.test (female, total) " 

Vì trong nhóm 4, không có nữ giới cho nên tỉ lệ là 0%. Hơn nữa, trong, 
nhóm này chỉ có 2 đối tượng. Vì số lượng đối tượng quá nhỏ, cho nên các ước 
tính thống kê có thể không đáng tin cậy. Một phương pháp khác có thể áp 
dụng cho các nghiên cứu với tần số thấp như trên là kiểm định fisher (còn 
gọi là Fishers exact test). Bạn đọc có thể tham khảo lí thuyết đằng sau kiểm 
định fsher để hiểu rõ hơn về logic của phương pháp này, nhưng ở đây, chúng 
ta chỉ quan tâm đến cách dùng R để tính toán kiểm định này. Chúng ta chỉ 
đơn giản lệnh: 


> fisher.test (sex, ethnicity) 
Fisher"“s Exact Test for Count Data 


data: sex and ethnicity 

p-value = 0.1048 

alternative hypothesis: two.sided 

Chú ý trị số p từ kiểm định Fisher là 0.1048, tức rất gần với trị số p của 
kiểm định Khi bình phương. Cho nên, chúng ta có thêm bằng chứng để khẳng, 
định rằng tỉ lệ nữ giới giữa các sắc tộc không khác nhau một cách đáng kể. 
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_x4t À. 


® Phân tích hồi qui tuyến tính 








hân tích hồi qui tuyến tính (linear regression analysis) có lẽ là một 

trong những phương pháp phân tích số liệu thông dụng nhất trong 

thống kê học. Có người từng viết "Cho con người 3 vũ khí - hệ số 
tương quan, hồi qui tuyến tính và một cây bút, con người sẽ sử dụng cả ba”! 
“Trong chương này, tôi sẽ giới thiệu cách sử dụng R để phân tích hối qui tuyến. 
tính và các phương pháp liên quan như hệ số tương quan và kiểm định giả 
thiết thống kê. 








Ví dụ 1: Để minh họa cho vấn đế, chúng ta thử xem xét nghiên cứu sau 
đây, mà trong đó nhà nghiên cứu đo lường độ cholesterol trong máu của 18 
đối tượng nam. Tỉ trọng cơ thể (body mass index) cũng được ước tính cho mỗi 
đối tượng bằng công thức tính BMI là lấy trọng lượng (tính bằng kg) chia cho. 
chiểu cao bình phương (mˆ). Kết quả đo lường như sau: 


Bảng 1. Độ tuổi, tỉ trọng cơ thể và cholesterol. 
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11 57 23.2 4.1 
12 33 21.8 3.0 
13 22 20.9 2.5 
14 63 26.7 4.6 
15 40 26.4 3.2 
16 48 21.2 4.2 
17 28 21.2 EEEI 
18 ED 22.8 4.0 




















Nhìn sơ qua số liệu chúng ta thấy người có độ tuổi càng cao độ cholesterol 
cũng càng cao. Chúng ta thử nhập số liệu này vào R và vẽ một biểu đồ tán xạ 
như sau: 

> age <- c(46,20,52,30,57,25,28,36,22,43,57,33, 

22,63,40,48,28,49) 


> bmi <-c(25.4,20.6,26.2,22.6,25.4,23.1,22.7,24.9, 
19.8,25.3,23.2, 21.8, 20. 9,26. 7,26.4,21.2, 
21.2,22.8) 


> chol <- c(3.5,1.9,4.0,2.6,4.5,3.0,2.9,3.8, 
2.1,3.8,4.1,3.0, 2.5,4.6,3.2, 
4.2,2.3,4.0) 


> data <- data.frame(age, bmi, chol) 


> plot(chol ~ age, pch=16) 





4s 
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25 
+ 





20 
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Biểu đồ 1. Liên hệ giữa độ tuổi và cholesterol. 
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Biểu đổ 1 trên cho thấy mối liên hệ giữa độ tuổi (aøe) và cholesterol là 
một đường thẳng (tuyến tính). Để “đo lường” mối liên hệ này, chúng ta có thể 
sử dụng hệ số tương quan (coefficient of correlation). , 


10.1 Hệ số tương quan 

Hệ số tương quan (r) là một chỉ số thống kê đo lưởng mỗi liên hệ tương. 
quan giữa hai biến số, như giữa độ tuổi (x) và cholesterol (y). Hệ số tương 
quan có giá trị từ -1 đến 1. Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là 
hai biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có 
nghĩa là hai biến số có một mối liên hệ tuyệt đối. Nếu giá trị của hệ số tương 
quan là âm (r <0) có nghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm 
thì y tăng); nếu giá trị hệ số tương quan là dương (r > 0) có nghĩa là khi x tăng 
cao thì y cũng tăng, và khi x giảm cao thì y cũng giảm theo. 

“Thực ra có nhiều hệ số tương quan trong thống kê, nhưng ở đây tôi sẻ 
trình bày 3 hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r, 
Spearman p, và Kendall +. 


10.1.1 Hệ số tương quan Pearson 


Cho hai biến số x và y từ n mẫu, hệ số tương quan Pearson được ước tính 
bằng công thức sau đây: 








“Trong đó, như định nghĩa phấn trên, š và ÿ là giá trị trung bình của biến 
số x và y. Để ước tính hệ số tương quan giữa độ tuổi age và cholesterol, chúng 
ta có thể sử dụng hàm cor (x„y) như sau: 


> cor(age, chol) 

(1] 0.936726 

Chúng ta có thể kiểm định giả thiết hệ số tương quan bằng 0 (tức hai 
biến x và y không có liên hệ). Phương pháp kiểm định này thường dựa vào 
phép biến đổi Fisher mà R đã có sẵn một hàm co. test để tiến hành việc 
tính toán. 
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b cor.test(age, chol) 
Pearson“s product-moment correlation 
data: age and chol | 
t= 10.7035, df = 16, p-value = 1.058e-0| I 
alternative hypothesis: true correlation " Equali Eø 0 

95 percent confidence interval: 

0.8350463 0.9765306 
sample estimates:_ 
cơr 

0.936726 

Kết quả phân tích cho thấy kiểm định t = 10.70 với trị số p=1.058e-08; 
do đó, chúng ta có bằng chứng để kết luận rằng mối liên hệ giữa độ tuổi và 
cholesterol có ý nghĩa thống kê. Kết luận này cũng chính là kết luận chúng ta 
đã đi đến trong phần phân tích hồi qui tuyến tính trên. 


10.1.2 Hệ số tương quan Spearman p 

Hệ số tương quan Pearson chỉ hợp lí nếu biến số x và y tuân theo luật phân. 
phối chuẩn. Nếu x và y không tuân theo luật phân phối chuẩn, chúng ta phải 
sử dụng một hệ số tương quan khác tên là Spearman, một phương pháp phân 
tích phi tham số. Hệ số này được ước tính bằng cách biến đổi hai biến số x và y 
thành thứ bậc (rank), và xem độ tương quan giữa hai dãy số bậc. Do đó, hệ số 
còn có tên tiếng Anh là Spearmans Rank correlation. R ước tính hệ số tương 
quan Spearman bằng hàm coz. test với thông số method= "spearman " 
như sau: 


> cor.test(age, chol, method="spearman") 


Spearman”s rank correlation rho 

data: age and chol 

§ = 51.1584, p-value = 2.57e-09 

alternative hypothesis: true rho is not equal to 0 
sample estimates: rho = 0.947205 

Warning message: 

Cannot compute exact p-values with ties in: cor.test. 
default(age, chol, method = "spearman") 
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Kết quả phân tích cho thấy giá trị rho=0.947, và trị số p=0.00000000257. 
Kết quả từ phân tích này cũng không khác với phân tích hồi qui tuyến tính: 
mối liên hệ giữa độ tuổi và cholesterol rất cao và có ý nghĩa thống kê. 


10.1.3 Hệ số tương quan Kendall t 

Hệ số tương quan Kendall (cũng là một phương pháp phân tích phi tham 
số) được ước tính bằng cách tìm các cặp số (x, y) “song hành” với nhau. Một 
cặp (x, y) song hành ở đây được định nghĩa là hiệu (độ khác biệt) trên trục 
hoành có cùng dấu hiệu (dương hay âm) với hiệu trên trục tung. Nếu hai 
biến số x và y không có liên hệ với nhau, thì số cặp song hành bằng hay tương 
đương với số cặp không song hành. 

Bởi vì có nhiều cặp phải kiểm định, phương pháp tính toán hệ số tương 
quan Kendall đòi hỏi thời gian của máy tính khá cao. Tuy nhiên, nếu một dữ 
liệu dưới 5000 đối tượng thì một máy vi tính có thể tính toán khá dễ dàng. R. 
dùng hàm cor. test với thông số method= "kenda11 " để ước tính hệ số 
tương quan Kendall: 


> cor.test(age, chol, method=“kendall") 


Kendall”s rank correlation tau 

data: age and chol 

z “= 4.755, p-value = 1.984e-06 

alternative hypothesis: true tau is not equal to 0 


sample es 





imates: 








tau 

0.8333333 

Warning message: 

Cannot compute exact p-value with ties in: cor.test. 

default(age, chol, method = "kendall") 

Kết quả phân tích hệ số tương quan Kendall một lấn nữa khẳng định mối 
liên hệ giữa độ tuổi và cholesterol có ý nghĩa thống kẻ, vì hệ số tau = 0.833 và 
trị số p = 1.98e-06. 

Các hệ số tương quan trên đây đo mức độ tương quan giữa hai biến số, 
nhưng không cho chúng ta một phương trình để nối hai biến số đó với nhau. 
Do đó, vấn để đặt ra là chúng ta tìm một phương trình tuyến tính để mô tả mối 
liên hệ này. Chúng ta sẽ ứng dụng mô hình hồi qui tuyến tính. 
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10.2 Mô hình hồi qui tuyến tính đơn giản 

10.2.1 Vài hàng lí thuyết 

Để tiện việc theo dõi và mô tả mô hình, gọi độ tuổi cho cá nhân ¡ là x, và 
cholesterol là y,. Ở đây ¡ = 1, 2, 3, ... 18. Mô hình hồi qui tuyến tính phát biểu rằng: 


,=ø+x,+£, II] 


Nói cách khác, phương trình trên giả định rằng độ cholesterol của một cá 
nhân bằng một hằng số œ công với một hệ số j liên quan đến độ tuổi, và một 
sai số £„ Trong phương trình trên, œ là chặn (intercept, tức giá trị lúc x, =0), 
và j là độ đốc (slope hay gradient). Trong thực tế, œ và j là hai thông số 
(parameter, còn gọi là regression coefficient hay hệ số hồi qui), và e, là một biển 
số theo luật phân phối chuẩn với trung bình 0 và phương sai ơ'. 

Các thông số ơ, và ø' phải được ước tính từ dữ liệu. Phương pháp để 
ước tính các thông số này là phương pháp bình phương nhỏ nhất (least squares 
method). Như tên gọi, phương pháp bình phương nhỏ nhất tìm giá trị œ, Ö sao. 
cho Šp›, ~(œ+/k, Ji nhỏ nhất. Sau vải thao tác toán, có thể chứng minh dễ 

mm 


dàng rằng, ước số cho œ và ñ đáp ứng điểu kiên đó là: 








„_š-#)b~?) 
Š(&-) - 


=- 





2] 





&=ÿ-ñ* [3] 

Ở đây, x và ÿ là giá trị trung bình của biến số x và y. Chú ý, chúng ta 
viết # và / (với dấu mũ phía trên) là để nhấc nhở rằng đây là hai ước số 
(estimates) của œ và 3, chứ không phải œ và j3 (chúng ta không biết chính xác 
ơ và j3, nên chỉ có thể ước tính mà thôi). 

Sau khi đã có ước số # và Ø, chúng ta có thể ước tính độ cholesterol 
trung bình cho từng độ tuổi như sau: 
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Tất nhiên, ÿ, ở đây chỉ là số trung bình cho độ tuổi x„ và phần còn lại (tức 
1;- Ÿ,) gọi là phẩn dư (hay residual). Và phương sai của phần dư có thể ước 
tính như sau: 


l4] 





s° chính là ước số của ơ°. 

Trong phân tích hồi qui tuyến tính, thông thường chúng ta muốn biết hệ 
số  = 0 hay khác 0. Nếu bằng 0, thì y, =#+ đx,+£,=+£,, tức là những 
khác biệt giữa các đối tượng về cholesterol chỉ xoay quanh số trung bình và sai 
số ngẫu nhiên e, hay nói cách khác, không có mổi liên hệ gì giữa x và y; nếu 
khác với 0, chúng ta có bằng chứng để phát biểu rằng x và y có liên quan nhau. 
Để kiểm định giả thiết B = 0 chúng ta dùng xét nghiệm t sau đây: 

8 
HN I5] 
(2) 


SE(ô) có nghĩa là sai số chuẩn (standard error) của ước số Ø. Trong 
phương trình trên, £ tuân theo luật phân phối : với bậc tự đo ø-2 (nếu thật sự 
B=0). 


10.2.2 Phân tích hồi qui tuyến tính đơn giản bằng R 


Hàm 1m (viết tắt từ linear model) trong R có thể tính toán các giá trị của 
# và Ø, cũng như s? một cách nhanh gọn. Chúng ta tiếp tục với ví dụ bằng R 
như sau: 

> 1m(chol ~ age) 


Call: 


1m(formula = chol ~ age) 


Coefficients: 
(Tntercept) age 
1.08922 0.05779 
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Trong lệnh trên, "choi ~ age " có nghĩa là mô tả cho1 là một hàm 
số của age. Kết quả tính toán của 1m cho thấy # =1.0892 và đ=0.05779. Nói 
cách khác, với hai thông số này, chúng ta có thể ước tính độ cholesterol cho. 
bất cứ độ tuổi nào trong khoảng tuổi của mẫu bằng phương trình tuyến tính: 


Ổ/= 1.08922 + 0.05779 x age 


Phương trình này có nghĩa là khi độ tuổi tăng 1 năm thì độ cholesterol 
tăng khoảng 0.058 mmol/L. 

“Thật ra, hàm 1m còn cung cấp cho chúng ta nhiều thông tin khác, nhưng 
chúng ta phải đưa các thông tin này vào một object. Gọi object đó là reg, thì 
lệnh sẽ là: 

> reg <- Im(chol ~ age) 

> summary (reg) 


Call: lm(formula “ chol ~ age) 


Residuals: 
Min 1Q Median 30 Max 
~0.40729 -0.24133 -0.04522 0.17939 0.63040 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.089218 0.221466 4.918 0.000154 *** 
age 0.057788 0.005399. 10.704 1.06e-08 *** 


Signif. codes: 0 ***** 0,001 **** 0,01 *** 0,05 *,* 0,1 * v1 


Residual standard error: 0.3027 on 16 degrees of freedom 
Multiple R-Squared: 0.8775, Adjusted R=squared: 0.8698 
F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08 


Lệnh thứ hai, summazy (reg) , yêu cẩu R liệt kê các thông tin tính toán. 
trong reg. Phần kết quả chia làm 3 phấn: 


(a) Phấn 1 mô tả phần dư (residuals) của mô hình hồi qui: 


Residuals: 


Min là kàlet | 30 l Max 
~0.40729 -0.24133 -0.04522 0.1939 0163040) 


'lpe/fielun heploerg 


Chúng ta biết rằng trung bình phần dư phải là 0, và ở đây, số trung vị là 
-0.04, cũng không xa 0 bao nhiêu. Các số quantiles 25% (1Q) và 75% (3Q) 
cũng khá cân đối chung quanh số trung vị, cho thấy phần dư của phương trình 
này tương đối cân đối. 

(b) Phần hai trình bày ước số của Z và / cùng với sai số chuẩn và giá trị 
của kiểm định t. Giá trị kiểm định t cho / là 10.74 với trị số p=0.0000000106, 
cho thấy không phải bằng 0. Nói cách khác, chúng ta có bằng chứng để cho. 
rằng có một mối liên hệ giữa cholesterol và độ tuổi, và mối liên hệ này có ý 
nghĩa thống kê. 

Coefficients: 

Estimate $Std. Error t value Pr(>|t|) 

(Intercept) 1.089218 0.221466 4.918 0.000154 *** 

age 0.057788 0.005399 10.704 1.06e-08 *** 


Signif. codes: 0 !***** 0,001 **** 0,01 ***° 0,05 *,° 0.1 \ v1 


(c) Phần ba của kết quả cho chúng ta thông tin về phương sai của phần dư. 
(residual mean square). Ở đây, s` = 0.3027. Trong kết quả này còn có kiểm định 
E, cũng chỉ là một kiểm định xem có quả thật bằng 0, tức có ý nghĩa tương 
tự như kiểm định t trong phần trên. Nói chung, trong trường hợp phân tích 
hồi qui tuyến tính đơn giản (với một yếu tố) chúng ta không cần phải quan 








Residual [standard error: 0.3027 on 16 degrees of| freedom - 

Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698 

F-statistic: 114.6 on 1 and 16 DF, p-value: |1.058e-08 

Ngoài ra, phấn 3 còn cho chúng ta một thông tin quan trọng, đó là trị số. 
R hay hệ số xác định bội (coefiicient of determination). Hệ số này được ước 
tính bằng công thức: 


SGœ,-z) 
_^ 


R›=® 
3œ-z) 


l6] 
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Tức là bằng tổng bình phương giữa số ước tính và trung bình chia cho 
tổng bình phương số quan sát và trung bình. Trị số R° trong ví dụ này là 
0.8775, có nghĩa là phương trình tuyến tính (với độ tuổi là một yếu tổ) giải 
thích khoảng 88% các khác biệt về độ cholesterol giữa các cá nhân. Tất nhiên 
trị số R? có giá trị từ 0 đến 100% (hay 1). Giá trị R? càng cao là một đấu hiệu 
cho thấy mối liên hệ giữa hai biến số độ tuổi và cholesterol càng chặt chẽ. 

Một hệ số cũng cần để cập ở đây là hệ số điểu chỉnh xác định bội (mà trong 
kết quả trên R gọi là “Adjusted R-squared”). Đây là hệ số cho chúng ta biết mức 
độ cải tiến của phương sai phần dư (residual variance) do yếu tố độ tuổi có 
mặt trong mô hình tuyến tính. Nói chung, hệ số này không khác mấy so với hệ 
số xác định bội, và chúng ta cũng không cẩn chú tâm quá mức. 


10.2.3 Giả định của phân tích hồi qui tuyến tính 

“Tất cả các phân tích trên dựa vào một số giả định quan trọng như sau: 

(a) x là một biến số cố định hay ñxed, (“cố định” ở đây có nghĩa là không 
có sai sót ngẫu nhiên trong đo lường); 

(b) e, phân phối theo luật phân phối chuẩn; 

(€) e, có giá trị trung bình (mean) là 0; 

(d) e, có phương sai Ø° cố định cho tất cả x; và 

(e) các giá trị liên tục của e, không có liên hệ tương quan với nhau (nói 
cách khác, e, và £, không có liên hệ với nhau). 

Nếu các giả định này không được đáp ứng thì mô hình mà chúng ta ước 
tính có vấn để hợp lí (validity). Do đó, trước khi trình bày và diễn dịch mô 
hình trên, chúng ta cẩn phải kiểm tra xem các giả định trên có đáp ứng được 
hay không. Trong trường hợp này, giả định (a) không phải là vấn để, vì độ tuổi 
không phải là một biến số ngẫu nhiên, và không có sai số khi tính độ tuổi của 
một cá nhân. 

Đối với các giả định (b) đến (e), cách kiểm tra đơn giàn nhưng hữu hiệu. 
nhất là bằng cách xem xét mối liên hệ giữa ÿ,, x,, và phần dư e, (#, = y,= ÿ,) 
bằng những đồ thị tán xa. 

Với lệnh fitted () chúng ta có thể tính toán ÿ, cho từng cá nhân như sau 
(ví dụ đối với đối tượng số 1, 46 tuổi, độ cholestrol có thể tiên đoán như sau: 
1.08922 + 0.05779 x 46 = 3.747). 
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> fitted (reg) 
1 2 3 4 5 6 T7 8 
3.7474 2.2449 4.0942 2.8228 4.3831 2.5339 2.7072 3.1696 


9 10 11 12 13 14 15 16 
2.3605 3.5741 4.3831 2.9962 2.3605 4.7298 3.4007 3.8630 


17 18 
2.7072 3.9208 


Với lệnh resid() chúng ta có thể tính toán phần dư e, cho từng cá 


nhân như sau (với đối tượng 1,e,= 3.5 - 3.74748 = -0.24748): 
> resid(reg) 
1 2 3 4 5 6 
~0.2474 ~0.3449 ~0.0942 ~0.2228 0.1168 0.4660 


7 8 9 10 11 12 
0.1927 0.6304 -0.2605 0.2258 -0.2831 0.0037 


13 14 15 16 17 18 
0.1394 -0.1298 -0.2007 0.3369 -0.4072 0.0791 


(eslduals và Fited 'NemalQ-0. 
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Biểu đồ 2. Phân tích phần dư để kiểm tra các giả định trong phân tích hồi qui tuyến tính. 


Để kiểm tra các giả định trên, chúng ta có thể vẽ một loạt 4 đổ thị trên 


như sau: 
> op <- par(mfrow=c(2,2))  #yêu cấu R dành ra4 cửa sổ 


> plot (reg) #vẽ các đồ thị trong reg. 
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(a) Đồ thị bên trái dòng 1 vẽ phần dư e, và giá trị tiên đoán cholesterol ÿ,. 
Đồ thị này cho thấy các giá trị phần dư tập trung quanh đường y = 0, cho nên 
giả định (c), hay e, có giá trị trung bình 0, là có thể chấp nhận được. 

(b) Đồ thị bên phải dòng 1 vẽ giá trị phần dư và giá trị kì vọng dựa vào 
phân phối chuẩn. Chúng ta thấy các số phần dư tập trung rất gần các giá trị 
trên đường chuẩn, và do đó, giả định (b), tức e, phân phối theo luật phân phối 
chuẩn, cũng có thể đáp ứng. 

(c) Đồ thị bên trái dòng 2 vẽ căn số phần dư chuẩn (standardized residual) 
và giá trị của ÿ,. Đồ thị này cho thấy không có gì khác nhau giữa các số phần 
dư chuẩn cho các giá trị của ÿ,, và do đó, giả định (d), tức e, có phương sai Ø? 
cố định ‹ cho tất ả ó thị ứ 






Iphăn. dự, [chúng b ta có thế Kết luận rằng mỏ. hình 
hối qui tuyến tính mô tả mối liên 'hệ giữa độ tuổi và cholesterol một cách khá 
đầy đủ và hợp lí. | 


10.2.4 Mô hình tiễn lượng 


Sau khi mô hình tiên đoán cholesterol đã được kiểm tra và tính hợp lí đã 
được thiết lập, chúng ta có thể vẽ đường biểu diễn của mối liên hệ giữa độ tuổi và 
cholesterol bằng lệnh ab1 i ne như sau (xin nhắc lại object của phân tích là reg); 


> plot(chol ~ age, pch=16) 








> abline (reg) 
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Biểu đố 3. Đường biếu diễn mối liên hệ giữa đồ tuối (age) và cholesterol. 
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Nhưng mỗi giá trị ÿ, được tính từ ước số và/ổ, mà các ước số này 
đều có sai số chuẩn, cho nên giá trị tiên đoán ÿ, cũng có sai số. Nói cách 
khác, ÿ, chỉ là trung bình, nhưng trong thực tế có thể cao hơn hay thấp hơn 
tùy theo chọn mẫu. Khoảng tin cậy 95% này có thể ước tính qua R bằng các 
lệnh sau đây: 


reg <- Im(chol ~ age) 

new <- data.frame(age = seq(15, 70, 5)) 

Pred.w.plim <- predict.Im(reg, new, interval="prediction") 
pred.w.clim <- predict.lm(reg, new, interval="confidence") 
resc <- cbỉnd(pred.w.clim, new) 

resp <- cbind(pred.w.plim, new) 

plot (chol ~ age, pch=16) 

lines (resc$fit ~ resc§age) 

1ines (resc§lwr ~ resc§age, col=2) 

lines (resc§upr ~ resc§age, col=2) 

lines (resp§lwr ~ resp§age, col=4) 








VVVVVVVVVVvVV 


lines (tesp§upr ~ resp§age, col~4) 


(Chú ý: trong các lệnh trên, chúng ta sử dụng những biến số như 
resc§$fit, resc$1wr, resc$upr,xesp§$1wr,resp$upr. Cách viết 
này có nghĩa là trích biến số fit từ đối tượng rese, hay 1wr và upr (khoảng 
tin cậy 95%) của rese). 
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Biểu đồ 4. Giá trị tiên đoán và khoảng tin cậy 959. 





'lpe/fielun heploerg 


Biểu đố 4 vẽ giá trị tiên đoán trung bình ÿ, (đường thẳng màu đen), và 
khoảng tin cậy 95% của giá trị này là đường màu đỏ. Ngoài ra, đường màu 
xanh là khoảng tin cậy của giá trị tiên đoán cholesterol cho một độ tuổi mới 
trong quần thể. 


10.3 Mô hình hồi qui tuyến tính đa biến (multiple linear regression) 


Mô hình được diễn đạt qua phương trình [1] y, =#+ x,+£, có một yếu 
tố duy nhất (đó là x), và vì thế thường được gọi là mô hình hồi qui tuyến tính 
đơn giản (simple linear regression model). Trong thực tế, chúng ta có thể phát 
triển mô hình này thành nhiều biến, chứ không chỉ giới hạn một biến như 
trên, chẳng hạn như: 


Yị=8+x, +8;xụ +-..+ 8X +, là 
Nói cụ thể hơn: 
M=Œ+,Xụ +,Xj +...+ B Xc, + E, 
y,=Œ+Bjxy; + B,x„y + ..+ ñ Xu + E, 


y=0+B xi + By +2 By, + E, 








y„=0Œ+jX,, + Bx,, + ..+ B XS, + E, 


Chú ý trong phương trình trên, chúng ta có nhiếu biến 
x(xụ x„... đến x,), và mỗi biến có một thông số 8, (ï= 1,2, ... k) cần phải ước 
tính. Vì thế mô hình này còn được gọi là mô hình hồi qui tuyến tính đa biến. 


Phương pháp ước tính Ø, cũng chủ yếu dựa vào phương pháp bình phương, 





nhỏ nhất. Gọi ÿ,=#+ Äx, + Â,x, +...+ ,xụ là ước tính của y, , phương pháp 
bình phương nhỏ nhất tìm giá trị ở, Ô).,..... Â, sao cho 3 (y, — ÿ,)” nhỏ nhất. 
ri 





Đối với mô hình hồi qui tuyến tính đa biến, cách viết và mô tả mô hình 
gọn nhất là dùng kí hiệu ma trận. Mô hình [7] có thể thể hiện bằng kí hiệu ma 
trận như sau: 


Y=XB+c 


Trong đó: Y là một vector ø x 1, X là một ma trận ø x k phần tử, ñ và một. 
vector kx 1, và e là vector gồm ø x 1 phần tử: 
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Đo 1 8 ° 
y-|* te 1 ø= 8: ¿=l|'®2 
b5 1 8. s 





Phương pháp bình phương nhỏ nhất giải vector B bằng phương trình 
sau đây: 


Â=(x'x}'x'r 
và tổng bình phương phần dư: 
cz=ly-fŸ 


Ví dụ 2: Chúng ta quay lại nghiên cứu về mối liên hệ giữa độ tuổi, bmi 
và cholesterol. Trong ví dụ, chúng ta chỉ mới xét mối liên hệ giữa độ tuổi 
và cholesterol, mà chưa xem đến mối liên hệ giữa cả ba yếu tổ độ tuổi, bmi. 
và cholesterol. Biểu đổ 5 sau đây cho chúng ta thấy mối liên hệ giữa ba biến 
SỐ này: 

> pairs (data) 












































. . ..[†? 
» nv Šs Ƒ# 
age + '. # 
z1 ˆ 
lv = +“ 
F "” s.." 
k .. ® “g.* 
3 
a4 *„ .ã bmi gã Ÿ 
....s = ` chol 
————— ` 





Biểu đồ 5. Giá trị tiên đoán và khoảng tin cậy 95%. 
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Cũng như giữa độ tuổi và cholesterol, mối liên hệ giữa bmi và cholesterol 
cũng gần tuân theo một đường thẳng. Biểu đồ trên còn cho chúng ta thấy độ 
tuổi và bmi có liên hệ với nhau. Thật vậy, phân tích hồi qui tuyến tính đơn giản 
giữa bmi và cholesterol cho thấy mối liên hệ này có ý nghĩa thống kê: 


> summary(1m(chol ~ bmi)) 
Call: lm(formula = chol ~ bmi) 


Residuals: 
Min 1Q Median 30 Max 
~0.9403 -0.3565 -0.1376 0.3040 1.4330 


Coefficients: 

Estimate §Std. Error t value Pr(>|t|) 
(Intercept) -2.83187 1.60841 -1.761 0.09739., 
bmi 0.26410 0.06861 3.849. 0.00142 ** 


Signif. codes: 0 ***** 0,001 ***“ 0,01 **“ 0.05 *,° 0.1 *! v1 


Residual standard error: 0.623 on 16 degrees of freedom 
Multiple R-Squared: 0.4808, Adjusted R-squared: 0.4483 
F-statistie: 14.82 on 1 and 16 DF, p-value: 0.001418 


BMI giải thích khoảng 48% độ dao động về cholesterol giữa các cá nhân. 
Nhưng vì BMI cũng có liên hệ với độ tuối, chúng ta muốn biết nếu hai yếu tố 
này được phân tích cùng một lúc thì yếu tố nào quan trọng hơn. Để biết ảnh 
hưởng của cả hai yếu tố age (x,) và bmi (tam gọi là x,) đến cholesterol (y) qua 
một mô hình hồi qui tuyến tính đa biến, và mô hình đó là: 


3, =8+/8x, +.pty +, 


Hay phương trình cũng có thế mô tả bằng kí hiệu ma trận: Y = Xi +£ vừa 
trình bày ở trên. Ở đây, Y là một vector 18 x 1, X là một matrix 18 x 2 phần tử, 
B và một vector 2 x 1, và e là vector gồm 18 x 1 phần tử. Để ước tính hai hệ số 
hồi qui, B, và B, chúng ta cũng ứng dụng hàm 1mm () trong R như sau: 

> mreg <- 1m(chol ~ age + bmi) 

> summary (mreg) 


Call: Im(formula = chol ~ age + bmi) 
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Residuals: 
Min 1Q Median 30 Max 
-0.3762 -0.2259 -0.0534 0.1698 0.5679 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.455458 0.918230 0.496 0.627 
age 0.054052 0,007591 7,120 3.50e-06 *** 
bmi 0.033364 0.046866 0.712 0.487 


Signif. codes: 0 ***** 0.001 ***° 0,01 *** 0.05 *.° 0.1 * v1 


Residual standard error: 0.3074 on 15 degrees of freedom 
Multiple R-Squared: 0.8815, Adjusted R-squared: 0.8657 
E-statistic: 55.77 on 2 and 15 DF, p-value: 1.132e-07 


Kết quả phân tích trên cho thấy ước số đ = 0.455, đ, = 0.054 và 
Ô, = 0.0333. Nói cách khác, chúng ta có phương trình ước đoán độ cholesterol 
dựa vào hai biến số độ tuổi và bmi như sau: 


Cholesterol “= 0,455 + 0.054(age) + 0.0333(bmi) 


Phương trình cho biết khi độ tuổi tăng 1 năm thì cholesterol tăng 0.054 mg/L 
(ước số này không khác mấy so với 0.0578 trong phương trình chỉ có độ tuổi), 
và mỗi 1 kg/mỶ tăng BMI thì cholesterol tăng 0.0333 mg/L. Hai yếu tố này "giải 
thích” khoảng 88.2% (R` = 0.8815) độ dao động của cholesterol giữa các cá nhân. 

Chúng ta chú ý phương trình với độ tuổi (trong phân tích phần trước) 
giải thích khoảng 87.7% độ dao động cholesterol giữa các cá nhân. Khi chúng 
ta thêm yếu tố BMI, hệ số này tăng lên 88.2%, tức chỉ 0.5%. Câu hỏi đặt ra là 
0.5% tăng trưởng này có ý nghĩa thống kê hay không. Câu trả lời có thể xem 
qua kết quả kiểm định yếu tố bmi với trị số p = 0.487. Như vậy, bmi không 
cung cấp cho chúng ta thêm thông tin hay tiên đoán cholesterol hơn những gì 
chúng ta đã có từ độ tuổi. Nói cách khác, khi độ tuổi đã được xem xét, thì ảnh 
hưởng của bmi không còn ý nghĩa thống kê. Điểu này có thể hiểu được, bởi vì 
qua biểu đồ 10.5 chúng ta thấy độ tuổi và bmi có một mối liên hệ khá cao. Vì 
hai biến này có tương quan với nhau, chúng ta không cẩn cả hai trong phương. 
trình. (Tuy nhiên, ví dụ này chỉ có tính cách minh họa cho việc tiến hành phân 
tích hồi qui tuyến tính đa biến bằng R, chứ không có ý định mô phỏng dữ liệu 
theo định hướng sinh học). 
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Biểu đồ 6. Phân tích phắn dư đế kiếm tra các giả định 
trong phân tích hồi qui tuyến tính đa biến. 








"Tuy BMI không có ý nghĩa thống kê trong trường hợp này, biểu đổ 6 cho 
thấy các giả định về mô hình hồi qui tuyến tính có thể đáp ứng. 


10.4 Phân tích hồi qui đa thức (Polynomial regression analysis) 

Một khai triển tất nhiên từ phân tích hồi qui đa biến độc lập là phân tích. 
hồi qui đa thức. Mô hình hối qui đa biến mô tả một biến phụ thuộc như là 
một hàm số tuyến tính (linear function) của nhiều biến độc lập, trong khi đó 
mô hình hồi qui đa thức mô tả một biến phụ thuộc là hàm số phí tuyến tính 
(non-linear function) của một biến độc lập. 

Nói theo ngôn ngữ toán học, mô hình hối qui đa thức tìm mối liên hệ giữa 
biến phụ thuộc y và biến độc lập x theo những hàm số sau đây: 


y=Œ+Bjx +) + B x) +.. + B,AP +, 


Trong đó các thông số , ( = 1, 2, 3, ... p) là hệ số đo lường mối liên hệ 
giữa y và x; và e, là phần dư của mô hình, với giả định e, tuân theo luật phân 
phối chuẩn với trung bình 0 và phương sai ø°. Cho một dãy cặp số (y,, x,), (y,, 
*;), y„ X,), ... (y„ x,), chúng ta có thể áp dụng phương pháp bình phương nhỏ, 
nhất để ước tính B, và ø°. 
—. 
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Trong mô hình trên, chúng ta có thể dễ dàng thấy rằng mô hình hồi qui 
đa thức còn là một phát triển trực tiếp từ mô hình hồi qui tuyến tính đơn giản. 
Tức là nếu B, =0, B, =0,... và B,„ = 0, thì mô hình trên đơn giản thành mô 
hình hồi qui tuyến tính một biến mà chúng ta gặp trong phần đầu của chương, 
này. Nếu y,= œ + ,x + B,x° + e, thì mô hình đơn giản là một phương trình 
bậc hai, v.v. 





Ví dụ 3: Thí nghiệm sau đây tìm mối liên hệ giữa hàm lượng gỗ cứng 
(hardwood concentration) và độ căng (tensile strength) của vật liệu. Mười 
chín vật liệu khác nhau với nhiều hàm lượng gỗ cứng được thử nghiệm để 
đo độ căng mạnh của vật liệu, và kết quả được tóm lược trong bảng số liệu 
sau đây: 




































































ID Da Nợ Cổ gel 
1 1.0 6.3 
2 1.5 31.1 
3 2.0 20.0 
4 3.0 24.0 
5 4.0 26.1 
4.5 30.0 
7 5.0 33.8 
8 5. 34.0 
9 6.0 38.1 
10 6.5 39,9 
11 1.0 42.0 
12 8.0 46.1 
13 9.0 
14 10.0 52.0 
15 11.0 52.5 
16 12.0 48.0 
17 13.0 42.8 
18 14.0 27.8 
19 15.0 21.9 

















Trước khi phân tích các số liệu này, chúng ta cần nhập số liệu vào R với 
những lệnh thông thường như sau: 
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P iq <- 1:15 


6.0, 6.5, 7.0, |B.0 0 .04 11.0; 12.0, 
13.0, 14.0, 15.0) 





Ð conc <- c(1.0, 1.5, 2.0, b4 h dj h Mã B:0,| 5.5, 


33.8, 34.0,| 38.1.| 39.9, 


> strength <~ c(6.3, 11.1, Kš Kš 
53.1, 52.0,| 52.5/| 48.0, 





6.1, 130.0, 
42.0/| 46.1, 
Ì42.8/ 27.8, 21.9) 


> data <- data.frame(id, conc, strength) 
Chúng ta thử xem mô hình hồi qui tuyến tính đơn giản bằng lệnh: 


> simple.model <- lm(strength ~ conc) 
> summary (simple.model) 


Call: l1m(formula = strength ~ conc} 


Residuals: 
Min 10 Median 30 Max 
-25.986 -3.749 2.938 71,675 15.840 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 21.3213 5.4302 3.926 0.00109 ** 
conc 1,7710 0.6478 2.734 0.01414 * 


Signif. codes: 0 ***** 0,001 ****“ 0.01 *** 0.05 *,* 0.1 *\ v1 


Residual standard error: 11.82 on 17 degrees of freedom 
Multiple R-Squared: 0.3054, Adjusted R-squared: 0.2645 


F-statistic: 7.474 on 1 and 17 DF, p-value: 0.01414 


Kết quả trên cho thấy mô hình hồi qui tuyến tính đơn giản này 
(strength = 21.32 + 1.77*cone) giải thích khoảng 31% phương sai 
của strength. Ước số phương sai của mô hình này là: s?= (11.82)?= 139.7. 


Bây giờ chúng ta xem qua biểu đồ và đường biểu diễn của mô hình trên: 


> plot(strength ~ conc, 
xlab="Concentration of hardwood"”, 
ylab="Tensile strength", 
main="Relationship between hardwood concentration 
\n and tensile strengt", pch=16 


> abline(simple.model) 
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2 4 6 8 10 12 1 
'Concentratlon of hardwood 
Biểu đồ 7. Mối liên hệ giữa hàm lượng gỗ cứng và độ căng mạnh của vật liệu. 
Đường thẳng là đường biểu diễn của mô hình hồi qui tuyến tính đơn giản. 


Qua biểu đổ này, chúng ta thấy rõ ràng mô hình hồi qui tuyến tính không 
thích hợp cho số liệu, bởi vì mối liên hệ giữa hai biến này không tuân theo một 
phương trình đường thẳng, mà là một đường cong. Nói cách khác, một mô, 
hình phương trình bậc hai có lẽ thích hợp hơn. Gọi y là strength và x là conc, 
chúng ta có thể viết mô hình đó như sau: 


y/=0+Bx+Ba 
Bây giờ chúng ta sẽ sử dụng R để ước tính ba thông số trên. 


> quadratic <- 1m(strength ~ poly(conc, 2)) 
> summary (quadratic) 


Call: 
1m(formula = strength ~ poly(conc, 2)) 
Residua1s: 

Min 10 Median 30 Max 


-5.8503 -3.2482 -0.7267 4.1350 6.5506 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Tntercept) 34.184 1.014 33.709 2.73e-16 *** 
poly(conc, 2)1 32.302 4.420 7.308 1.76e-06 *x** 
poly(conc, 2)2 -45.396 4.420 -10.270 1.89e-08 +** 
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Signif. codes: 0 **+*° 0.001 **** 0.01 *** 0.05 *.“ 0.1 * *1 


Residual standard error: 4.42 on 16 degrees of freedom 


Multiple R-Squared: 0.9085, Adjusted R-squared: 0.8971 
F-statistic: 79.43 on 2 and 16 DF, p-value: 4.912e-09 
Như vậy, mô hình mới: 


y = 34.18 + 32.30*x - 45.4*x? 


giải thích khoảng 91% phương sai của y. Phương sai của y bây giờ là 
s° = (4.42)? = 19.5. So với mô hình tuyến tính, mô hình này rõ ràng là tốt hơn 
rất nhiều. 


Chúng ta thử xét một mô hình cubic (bậc ba): 


y=œ+Bjx+Bz`+ Bz” 


Xem có mô tả y tốt hơn mô hình phương trình bậc hai hay không. 
> cubic <- 1m(strength ~ poly(conc, 3)) 

> summary (eubie) 

Call: 1m(formula = strength ~ poly(cone, 3)) 


Residuals: 
Min 1Q Median 30 Max 
~4.62503 -1.61085 0.04125 1.58922 5.02159 


Coeffieients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 34.1842 0.5931 57.641 < 2e-1l6 *** 
poly(conc, 3)1 32.3021 2.5850 12.496 2.48e-09 *** 
poly(conc, 3)2 -45.3963 2.5850 -17.561 2.06e-1l *** 
poly(conc, 3)3 ~-14.5740 2.5850 -5.638 4.72e-05 ***+ 


Siqmif. codes: Ú \***“ 0.001 **** 0.01 *** 0.05 Y.“° 0.1 \ v1 


Residual standard error: 2.585 on 15 degrees of freedom 
Multiple R-Squared: 0.9707, Adjusted R-squared: 0.9648 
F-statistic: 165.4 on 3 and 15 DF, p-value: 1.025e-ll 


Mô hình cubic này thậm chí có khả năng mô tả y tốt hơn hai mô hình 
trước, với hệ số xác định bội (R?) bằng 0.97, và tất cả các thông số trong mô. 
hình đều có ý nghĩa thống kê. Biểu đồ sau đây so sánh 3 mô hình trên: 
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lặp lại các mô hình trên: 

linear <- lm(strength ~ conc) 

quadratic <- lm(strength ~ poly(conc, 2)) 
cubic <- Im(strength ~ poly(conc, 3)) 


tạo nên một biến x với nhiều số gắn nhau 
xnew <- (0:160)/10 


# Tính giá trị tiên đoán (predictive values) của y 


> y2 = predict (quadratic, đata.frame (conc=xnew) ) 


v 


y3 = predict(cubic, data.£rame (conc=xnew) ) 


# Vẽ 3 dường thăng, bậc hai và bậc 3 


v 


v.v 


v 


plot (strength ~ conc, pch=16, 
main="Hardwood concentration and tensile strength", 
sub="Linear, quadratic, and cubic fits") 
abline(linear, col="black") 
lines (xnew, y2, col="blue", 1wd=3) 


lines(xnew, y3, col="red", lwd=4) 


Hardwood concentration and tensile strength 
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Linear, quadratic, and cubic fits 
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10.5 Xây dựng mô hình tuyến tính từ nhiều biến 

Trong một nghiên cứu thông thường với một biến số phụ thuộc, nhiều 
biến số độc lập x,, x,, „ x„ mà k có thể lên đến hàng chục, thậm chí hàng 
trăm. Các biến độc lập đó thưởng liên hệ với nhau. Có rất nhiều tổ hợp biến 
độc lập có khả năng tiên đoán biến phụ thuộc y. Ví dụ nếu chúng ta có 3 biến 
độc lập xạ, x„„ và x„„ để xây dựng mô hình tiên đoán y, chúng ta có thể phải xem. 
xét các mô hình sau đây: y= ƒ(x,), y= f(x,), y= f(x,), y= f(x„*,),y=f (Xu 
X,),y =f(Xy X.), y = (xụ x, x,), v.v... trong đó ƒ là những hàm số được định 
nghĩa bởi hệ số liên quan đến các biến cụ thể. Khi k cao, số lượng mô hình 
cũng lên rất cao. 


'Vấn để đặt ra là trong các mô hình đó, mô hình nào có thể tiên đoán y một 
cách đẩy đủ, đơn giản và hợp lí. Chúng ta sẽ quay lại ba tiêu chuẩn này trong 
chương phân tích hồi qui logistic. Ở đây, chúng ta chỉ muốn bàn đến một tiêu 
chuẩn thống kê để xây dựng một mô hình hồi qui tuyến tính. Trong trường 
hợp có nhiều mô hình như thế, tiêu chuẩn thống kê để chọn một mô hình tối 
ưu thường dựa vào tiêu chuẩn thông tin Akaike (còn gọi là AIC hay Akaike 
Tnformation Criterion). 





Cho một mô hình hồi qui tuyến tính ÿ=đ+Âx,+Â+x,+..+jx,, 
chúng ta có k+1 thông số (Z,Â,Ê,.... ñ,), và có thể tính tổng bình phương 
phần dư (residual sum of squares, RSS): 


Rss= (0,~w)) 

Trong đó, n là số lượng mẫu. Công thức trên cho thấy nếu mô hình mô 
tả y đấy đủ thì RSS sẽ thấp, vì độ khác biệt giữa giá trị tiên đoán ÿ và giá trị 
quan sát y gần nhau. Một qui luật chung của phân tích hồi qui tuyến tính là 
một mô hình với k biến độc lập sẻ có RSS thấp hơn mô hình với k-1 biến; và 
tương tự mô hình với k-1 biến sẽ có RSS thấp hơn mô hình với k-2 biến, v.v... 
Nói cách khác, mô hình càng có nhiếu biến độc lập sẽ "giải thích” y càng tốt 
hơn. Nhưng vì một số biến độc lập x liên hệ với nhau, cho nên có thêm nhiều 
biến không có nghĩa là RSS sẽ giảm một cách có ý nghĩa. Một phép tính để 
dung hòa RSS và số biến độc lập trong một mô hình là AIC, được định nghĩa 
như sau: 


AIC= "Í } — 
" 
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Mô hình nào có giá trị AIC thấp nhất được xem là mô hình "tối ưu” Trong 
ví dụ sau đây, chúng ta sẽ dùng hàm step để tìm một mô hình tối ưu dựa vào. 
giá trị AIC. 


Ví dụ4: Để nghiên cứu ảnh hưởng của các yếu tố như nhiệt độ, thời gian, 
và thành phấn hóa học đến sản lượng CO,. Số liệu của nghiên cứu này có thể 
tóm lược trong bảng số 2. Mục tiêu chính của nghiên cứu là tìm một mô hình 
hồi qui tuyến tính để tiên đoán sản lượng CO,, cũng như đánh giá độ ảnh 
hưởng của các yếu tố này. 


Bảng 2. Sản lượng CO, và một số yếu tố có thể ảnh hưởng đến CO, 
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102389 
41130 
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97864 
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21 1163 249 450 
2 959 395 450 
3 442 290 450 
24 3889 s5 460 





25 1119 115 450 
26 7562 s2 470 
27 36.03 106 470 


Chú thích: y = sản lượng CO; X1 = thời gian (phút); X2 = nhiệt độ (C); X3 = phần trăm hòa 


tan; X4 = lượng dấu (g/100g); X5 = lượng than đá; X6 = tống số lương hỏa tan; X7 = số hydrogen. 
tiêu thụ. 
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Trước khi phân tích số liệu, chúng ta cần nhập số liệu vào R bằng các lệnh 
thông thường. Số liệu sẽ chứa trong đối tượng REGdata. 


> y <- c(36.98,13.74,10.08, 8.53,36.42,26.59,19.07, 
5.96,15..52, 56. 61, 26.72, 20.80, 6. 99, 45. 93, 
43.09,15.79,21.60,35.19,26.14, 8.60, 
11.63, 9.59, 4.42,38.89,11.19,75.62, 36.03) 


> x1 <- c(5.1,26.4,23.8,46.4, 7.0,12.6,18.9,30.2, 
53.8,5.6,15.1,20.3,48.4,5.8,11,2,27.9,5.1, 
11.7,16.7,24.8,24.9,39.5,29.0, 5.5, 11.5, 
5.2,10.6) 


> x2 <- c(400,400, 400, 400, 450, 450, 450, 450, 450, 
400, 400, 400, 400, 425, 425, 425, 450, 450, 
450, 450, 450, 450, 450, 460, 450, 470, 470) 


> x3 <- c(51.37,72.33,71.44,79.15,80.47,89.90,91.48, 
98.60,98.05,55.69, 66.29,58.94,74.74,63.71, 
67.14,77.65,67.22,81.48,83.88,89.38, 79.77, 
97,93, 79.50,72.73,77.88,75.50,83.15) 


> x4 <- c(4.24,30.87, 33.01, 44.61, 33.84, 41.26, 41.88, 
70.9, 66. 82,8. 92, 17. 98, 17.79, 33. 94,11. 95, 
14.73,34.49,14.48,29.69,26.33, 37.98,25.66, 
22.36,31.52,17.86,25.20, 8.66,22.39) 


> x5 <- c(1484.83, 289.94, 320.79, 164.76, 1097.26, 
605.06, 405.37, 253.70, 142.27,1362.24, 507.65, 
372.60, 158.05, 130.66, 682.59, 274.20, 
1496.51, 652.43, 458.42, 312.25, 307.08, 
193.61,155.96,1392.08, 663.09,1464.11, 720.07) 


> x6 <- c(2227.25, 434.90, 481.19, 247.14,1645.89, 
907.59,608.05, 380.55, 213.40,2043.36, 761.48, 
566.40,237.08,1961.49,1023.89, 411.30,2244.77, 
978.64,687.62, 468.38, 460.62, 290.42,233.95, 
2088..12, 994. 63,2196..17,1080..11) 


> x7 <- c(2.06,1.33,0.97,0.62,0.22,0.76,1.71,3.93,1.97, 
5.08,0.60,0.90, 0.63,2.04,1.57,2.38,0.32, 
0.44,8.82,0.02,1.72,1.88,1.43,1.35,1.61, 
4.78,5.88) 

> REGdata <- data.frame(y, x1,x2,x3,x4,x5,x6,x7) 


Bây giờ chúng ta bắt đầu phân tích. Mô hình đấu tiên là mỏ hình gồm tất 
cả 7 biến độc lập như sau: 
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> reg <— lm(y ~ xl+x2+x3+x4+x5+x6+x7, đata=REGdata 
> summary (reg) 


Call: lm(formula = ÿ ~ xì + x2 + x3 + x4 + x5 + X6 + X1, 
data = REGdata) 


Residuals: 
Min 10 Median 30 Max 
-20.035 -4.681 -1.144 4.072 21.214 


Coefficients: 
Estimate $Std. Error t value Pr(>|t|) 
(Intercept) 53.937016 57.428952 0.939 0.3594 


x1 =0.127653 0.281498 -0.453 0.6553 
x2 ~0.229179 0.232643 -0.985 0.3370 
x3 0.824853 0.765271 1.078 0.2946 
x4 ~0.438222 0.358551 -1.222 0.2366 
x5 ~0.001937 0.009654 -0.201 0.8431 
x6 0.019886 0.008088 2.459 0.0237 * 
x? 1.,993486 1,089701 1,829 0.0831. 


Signif. codes: 0 ***** 0,001 ***“ 0.01 *** 0,05 *,° 0.1 *\ V1 


Residual standard error: 10.61 on 19 degrees of freedom 
Multiple R-Squared: 0.728, Adjusted R-squared: 0.6278 


F-statistic: 7.264 on 7 and 19 DF, p-value: 0.0002674 

Kết quả trên cho thấy tất cả 7 biến số “giải thích” khoảng 73% phương 
sai của y. Nhưng trong 7 biến đó, chỉ có x6 là có ý nghĩa thống kẻ (p=0.024). 
Chúng ta thử giảm mô hình thành một mô hình hối qui tuyến tính đơn giản 
với chỉ biến x6. 

> sumnary(lm(y ~ x6, data=REGdata)) 


Call: 1m(formula = y ~ x6, đata = REGdata) 


Residuals: 
Min 1Q Median 30 Max 
-28.081 -5.829 -0.839 5.522 26.882 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
Jÿttesssbt) 6.144181 3.483064 1.764 0.09. 


0.019395 0.002932 6.616 6.24e-07 *** 


Signif. codes: 0 ***** 0.001 9***# 0.01 *** 0.05 *.7 0.1 Y9 v1 


Residual standard error: 10.7 on 25 degrees of freedom 
Multiple R-Squared: 0.6365, Adjusted R-squared: 0.6219 


F-statistic: 43.77 on 1 and 25 DF, p-value: €.238e-07 
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Chỉ với một biến x6 mà mô hình có thể giải thích khoảng 64% phương 
sai của y. Chúng ta chấp nhận mô hình này? Trước khi chấp nhận mô hình 
này, chúng ta phải xem xét độ tương quan giữa các biến độc lập: 


> pairs (REGdata) 
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Kết quả trên cho thấy y có liên hệ với các biến như 1, 5 và z6. Ngoài ra, 
biến x5 và ¿6 có một mối liên hệ rất mật thiết (gần như là một đường thẳng) 
với hệ số tương quan là 0.88. Ngoài ra, x5 và x1 hay x6 và x5 cũng có liên hệ 
với nhau nhưng theo một hàm số nghịch đảo. Điều này có nghĩa là biến x5 
và x6 cung cấp một lượng thông tin như nhau để tiên đoán y, tức là chúng ta 
không cần cả hai trong một mô hình. 

Đểtìm một mô hình tối ưu trong bối cảnh có nhiều mối tương quan như thế, 
chúng ta ứng dụng step như sau. Chú ý cách cung cấp thông số 1m (y ~..), 
dấu “. ” có nghĩa là yêu cầu R xem xét tất cả biến trong đối tượng REGdata. 

> reg <- Im(y ~ ., data=REGdata) 

> step(reg, đirection="both") 
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Start: AiC= 134.07 


V + xi + X2 + X3 + KẾ + XS + XẾ +oXẾT 


Step 1: 


W + xÌ + x2 + x3 + X4 + X6 + x7 


AIC= 132.13 











Đ£f Sum of $q RSS A:iC 
-_x5 1 4.54 2145.37 132.13 Df Sumof 8q RSS  AIC 
~wl 1 23.17216400 132.36 | -xi 1 22.7 2168.1 130.4 
-x? 1 109.34 2250.18 133.42 | -x2 1 113.8 225.1 131.5 
-~ x3 ‡ 130.90 2271.74 133.68 -.. 1 133.5 2278,3 131.8 
<none> 2140.83 134.07 <none> 2145.4 132.1 
¬x4 1 168.31 2309.14 134.12 | - x4 1 170.8 2316.2 132.2 
-¬x7 1 371.08 2511.92 136.45 | +x5 1 4.5 2140.8 134.1 
-x6 ¡681.098 2821.92 139.53 | -x7 1 315.7 2521.1 134.5 

~x6 1 1058.5 3203.8 141,0 
Step 2: AIC= 130.42 Step 3: AIC= 129.59 
Y ~ XÊ + x3 + KÂ + x6 * KT VY ~ X3 + x4 + X6 + X7 

Df Sun of S4 RSS  AiC DF Sumof 8S RSS  AIC 
T1 96.8 2264.9 129,6 | -x3 + 25.4 2290.3 127.9 
x3. 1 122.0 2290.0 129.9 | - x4 1 90.9 2355.8 128.7 
<none> 2168.1 130.4 | <none> 2264.9 129.6 
~. 1 187.4 2355.5 130.7 .. 1 96.8 2168.1 130.4 
ti 1 22.1 2145.4 132.1 *tx5 1 8.3 2256.5 131.5 
+ 1 4.1 2164.0 132,4 txi 1 5.7 2259.1 131,5 
¬ 385.0 2553.1 132.8 | -x? 1 384.9 2649.7 131.8 
- X6 1  1526.2 3634.3 142.8 | - x6 1  2015.6 4280.5 144.8 
Step 4: AIC= 127,9 Step 5: AIC= 126.75 

Y ~ x4 + x6 « x7 V + x6 * x? 

Đf Sum of $§q RSS AIC Df Sum of 8q RSS MC 
“4Ì 13.5 2363.8 126.7 | <none> 2363.8 126.7 
<nonez 2290.3 127.9 t x4 1 13.5 2290.3 127.9 
+x3 1 25.4 2264.9 129.6 | +x1i 1 33.4 2330,4 128.4 
tt 1 11.32279.0 129.8 | +x3 1 8.1 2355.8 128.7 
+18 1 6.3 2284.0 129.8 +tx§ 1 1.7 2356.1 128.7 
*+ x2 1 0.3 2290.0 129.9 + x2 1 7.3 2356.6 128.7 
~ xT 1 486.6 2776.9 131.1 -Ÿ xT 1 497.3 2861.2 129.9 
~ x6 1 1993,8 4284.1 142.8 ~ x6 1 4477.0 6840.8 153,4 
Call: 
im(fornuia = y ~ x6 + x7,data * 

REGdata) 

Coeffictents: 

(Intercept) x6 x7 
2.52646. 0.01852 2,18575. 








Quá trình tìm mô hình tối ưu dừng ở mô hình với hai biến x6 và x7, vì 
mô hình này có giá trị AIC thấp nhất. Phương trình tuyến tính tiên đoán y là: 
y= 2.526 + 0.0185(x6) + 2.186(x7). 
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> summary(lm(y ~ x6‡x7, data=REGdata)) 
Call: 1m(formula = y ~ x6 + x7, data = REGdata 
Residuals: 

Min 1Q Median 30 Max 
-23.2035 -4.3713 0.2513 4.9339. 21.9682 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 2.526460 3.610055 0.700 0.4908 
x6 0.018522 0.002747 6.742 5.66e-07 *** 
x7 2.185753 0.972696 2.247 0.0341 * 


Signif. codes: 0 ***** 0,001 **** 0.01 *** 0.05 *.° 0.1 9 V1 
Residual standard error: 9.924 on 24 degrees of freedom 


Multiple R-Squared: 0.6996, Adjusted R-squared: 0.6746 
E-statistic: 27.95 on 2 and 24 DF, p-value: 5.391e-07 


Phân tích chỉ tiết (kết quả trên) cho thấy hai biến này giải thích khoảng. 
70% phương sai của y. 


10.6 Xây dựng mô hình tuyến tính bằng Bayesian Model Average (BMA) 


Một vấn để trong cách xây dựng mô hình trên là mô hình với x6 và x7 
được xem là mô hình sau cùng, trong khi đó chúng ta biết rằng một mô hình 
x5 và x7 cũng có thể là một mô hình khả di, bởi vì x5 và x6 có mối tương 
quan rất gần nhau. Nếu nghiên cứu được tiến hành tiếp và với thêm số liệu 
mới, có lễ một mô hình khác sẽ “ra đời”. 

Để đánh giá sự bất định trong việc xây dựng mỏ hình thống kê, một phép 
tính khác có triển vọng tốt hơn các phép tính trên là BMA (Bayesian Model 
Average). Bạn đọc muốn tìm hiểu thêm về phép tính này có thể tham khảo vài 
bài báo khoa học dưới đây. Nói một cách ngắn gọn, phép tính BMA tìm tất 
cả các mô hình khả dĩ (với 7 biến độc lập, số mô hình khả di là 27 = 128, chưa 
tính đến các mô hình tương tác!) và trình bày kết quả của các mô hình được 
xem là “tối ứu” nhất về lâu về dài. Tiêu chuẩn tối ứu cũng dựa vào giá trị AIC. 

Để tiến hành phép tính BMA, chúng ta phải dùng đến package BMA (có. 
thể tải về từ trang web của R http://cran.R-project.org). Sau khi đã có cài đặt 
package BMA trong máy tính, chúng ta phải nhập BMA vào mồi trường vận 
hành của R bằng lệnh: 

> library (BMA) 

Sau đó, tạo ra một ma trận chỉ gồm các biến độc lập. Trong data 
frame chúng ta biết REGdata có 8 biến, với biến số 1 là y. Do đó, lệnh 
REGdata[„ =1] có nghĩa là tạo ra một data frame mới ngoại trừ cột thứ 
nhất (tức y). 

> xvars <- REGdata[,-l] 
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Kế tiếp, chúng ta định nghĩa biến phụ thuộc tên co2 từ REGdata: 
> co2 <- REGdata[,1] 
Bây giờ chúng ta đã sẵn sàng phân tích bằng phép tính BMA. Hàm. 
bicreg được viết đặc biệt cho phân tích hối qui tuyến tính. Cách áp dụng 


hàm bicreg như sau: 
> bma <- bicreg(xvars, co2, strict=FALSE, OR=20) 


Chúng ta sử dụng hàm summary để biết kết quả: 


>_summary (bma) 
Call: 


bicreg(x = xvars, ý = co2, striet = FALSE, 


16 models were selected 


Best 5 models (cumulative posterior prebability = 


75612 
01807 
00075 
00011 
03059 
00023 
01815 
60766 


+ 


model 5 
7.3537 


~0 


0 
-22. 


p!=0  EV 
Intercept 100.0 5. 
xi 12.4 -0. 
x2 10.4 -0. 
x3 10.7 0. 
xã 20.2 ~0. 
x5 10,5 ~0. 
x6 100.0 0. 
x1 YRAÐ 1. 
nVar 
r2 
BIC 
post prob 

model 4 
Tntercept 1.5936 
x1 ~0.1393 
x2 : 
x3 
xã 
x5 8 
x6 0.0162 
x1 2.1233 
nVar 
r2 0.794 
BỊC ~22.9721 
post prob 0.072 


0 


„05? 


-017 
„238 


3 


„T01 


680 


063 


4.6244 
9.1008 
0.0282 
0.0791 
0.1020 
0.0030 
0,0040 
1.2821 


2 


9 
2 


1 


model 1 
2.5264 


0.0185 
2.1857 


2 
0.700 
~25.8832 
9.311 


OR = 20) 


0.6599 ): 
model 2 model 3 
6.1441 8.6120 
~0.1419 
0.0193 0,0164 
: 2.1628 

bị 3 
0,636 0.709 
~24.0238 23.4412 
0.123 0.092 


BMA trình bày kết quả của 5 mô hình được đánh giá là tối ưu nhất cho 


tiên đoán y(model 1, model 2, ... model 5). 


* 


Cột thứ nhất liệt kẻ danh sách các biến số độc lập; 
Cột 2 trình bày xác suất giả thiết một biến độc lập có ảnh hưởng đến y, 
Chẳng hạn như xác suất là x6 có ảnh hưởng đến y là 100%; trong khi 
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đó xác suất mà x7 có ảnh hưởng đến y là 73.7%. Tuy nhiên xác suất các 
biến khác thấp hơn hay chỉ bằng 20%. Do đó, chúng ta có thể nói rằng. 
mô hình với x6 và x7 có lẽ là mô hình tối ưu nhất. 

«_ Cột 3 (=EV) và 4 (SD) trình bày trị số trung bình và độ lệch chuẩn của 
hệ số cho mỗi biến số độc lập. 

« _ Cột 5 là ước tính hệ số ảnh hưởng (regression coefficient) của mô hình 
1. Như thấy trong cột này, mô hình 1 gồm intercept (tức œ), và hai biến 
x6 và x7. Mô hình này giải thích (như chúng ta đã biết qua phân tích 
phần trên) 70% phương sai của y. Trị số BIC (Bayesian Information 
Criterion) thấp nhất. Trong số tất cả mô hình mà BMA tìm, mô hình 
này có xác suất xuất hiện là 31.1%. 

«Ö _ Cột 6 là ước tính hệ số ảnh hưởng của mô hình 2. Như thấy trong cột 
này, mô hình 2 gồm intercept (tức œ), và biến x6. Mô hình này giải 
thích 64% phương sai của y. Trong số tất cả mô hình mà BMA tìm, mô 
hình này có xác suất xuất hiện chỉ là 12.3%. 

« _ Các mô hình khác cũng có thể diễn dịch một cách tương tự. 


Một cách thể hiện kết quả trên là qua một biểu đồ như sau: 


> _ imageplot..bma (bma) 
'Models selected by BMA. 


ư h \ 





h : 


Model# 


Tài liệu tham khảo cho BMA. 


» _ Raftery, Adrian E. (1995). Bayesian model selection in social research 
(with Discussion). Sociological Methodology 1995 (Peter V. Marsden, 
ed.), pp. 111-196, Cambridge, Mass.: Blackwells. 


« - Một số bài báo liên quan đến BMA có thể tải từ trang web sau đây: 
'www.stat.colostate.edu/~jah/papers. 
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_xF: Á.. 


Phân tích phương sai 
(Analysis of variance) 





tích thống kê mả trọng điểm là phương sai (thay vì số trung bình). 

Phương pháp phân tích phương sai nằm trong “đại gia đình” các 
phương pháp có tên là mô hình tuyến tính (hay general linear models), 
bao gồm cả hồi qui tuyến tính mà chúng ta đã gặp trong chương trước. 
“Trong chương này, chúng ta sẽ làm quen với cách sử dụng R trong phân 
tích phương sai. Chúng ta sẽ bắt đầu bằng một phân tích đơn giản, sau đó 
sẽ xem đến phân tích phương sai hai chiểu, và các phương pháp phí tham 
số thông dụng. 


P. tích phương sai, như tên gọi, là một số phương pháp phân 


11.1 Phân tích phương sai đơn giản 
(one-way analysis of variance - ANOVA). 


Ví dụ 1: Bảng thống kê 1 dưới đây so sánh độ galactose trong 3 nhóm 
bệnh nhân: nhóm 1 gồm 9 bệnh nhân với bệnh Crohn; nhóm 2 gồm 11 
bệnh nhân với bệnh viêm ruột kết (colitis); và nhóm 3 gồm 20 đối tượng 
không có bệnh (gọi là nhóm đối chứng). Câu hỏi đặt ra là độ galactose giữa 
3 nhóm bệnh nhân có khác nhau hay không? Gọi giá trị trung bình của ba 
nhóm là JI,„ H„; và H,„ và nói theo ngôn ngữ của kiểm định giả thiết thì giả 
thiết đảo là: 


Hy =H,=M, 
Và giả thiết chính là: H,: có một khác biệt giữa 3L (j = 1, 2, 3) 
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Bảng 1. Độ galactose cho 3 nhóm bệnh nhãn Crohn, viêm ruột kết và đối chứng. 











NHÓM 1: NHÓM2: NHÓM3: 
BỆNH CROHN. BỆNH VIÊM RUỘT KẾT | ĐỐI CHỨNG (CONTROL) 
1343 1264 1809 2850 
1393 1314 1926 2964 
1420 1399 2283 2973 
1641 1605 2384 3171 
1897 2385 2447 3257 
2160 2511 2479 3271 
2169 2514 2495 3288 
2279 2767 2525 3358 
2890 2827 2541 3643 
2895 2769 3657 
3011 
n=9 n=11 n=20 
Trung bình: 1910 Trung bình: 2226 Trung bình: 2804 
SD: 516 SD:727 SD:527 

















Chú thích: SD là độ lệch chuẩn (standard deviation). 


Mới xem qua vấn đề, có lẽ bạn đọc sẽ nghĩ rằng chúng ta cấn làm 3 so sánh 
(bằng phương pháp kiểm định t): giữa nhóm 1 và 2, nhóm 2 và 3, và nhóm 1 và 
3. Nhưng cách làm này không hợp lí, vì có ba phương sai khác nhau. Cách thích 
hợp nhất để so sánh này là phân tích phương sai. Phân tích phương sai có thể 
ứng dụng để so sánh nhiều nhóm cùng một lúc (simultaneous comparisons). 


11.1.1 Mô hình phân tích phương sai 
Để minh họa cho phương pháp phân tích phương sai, chúng ta phải dùng 
kí hiệu. Gọi độ galactose của bệnh nhân ¡ thuộc nhóm j (/ = 1, 2, 3) là xự Mô 
hình phân tích phương sai phát biểu rằng: 
x,=/+a,+£, I1 
Hay cụ thể hơn: 
xX,=lut0+E, 
X,=MH+0,+E„ 
xX,=H+0 +E, 
'Tức là, giá trị galactose của bất cứ bệnh nhân nào bằng giá trị trung bình 
của toàn quần thể (M) cộng/trừ cho ảnh hưởng của nhóm j được đo bằng hệ số 
ảnh hưởng #,, và sai số £,. Một giả định khác là £ụ phải tuân theo luật phân 
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phối chuẩn với trung bình 0 và phương sai ơ?. Hai thông số cần ước tính là II 
và œ,. Cũng như phân tích hồi qui tuyến tính, hai thông số này được ước tính 
bằng phương pháp bình phương nhỏ nhất; tức là tìm ước số Ô và ê, sao cho. 
®'(x„~a—â,) ` nhỏ nhất. 

Quay lại với số liệu nghiên cứu trên, chúng ta có những tóm tắt thống kê 
như sau: 


NHÓM. SỐ ĐỐITƯỢNG(N) | TRUNGBÌNH. PHƯƠNG SAI 
































1-Œohn n=9 Äj= 1910 SỈ = 265944 
2 -Viêm ruột kết n.=11 Ä;=2226 Sỹ =473387 
3 - Đối chứng n,=20 Ã =2804 SỶ=277500 
Toàn bộ mẫu n=40 X =2444 

Chú thích: x„ = š +(%,~%)+(x, ~%,) t2 


Trong đó, x là số trung bình của toàn mẫu, vàZ, là số trung bình của 
nhóm j. Nói cách khác, phần (,~) phản ánh độ khác biệt (hay cũng có thể 
gọi là hiệu số) giữa trung bình từng nhóm và trung bình toàn mẫu, và phần 
(x, -*) phản ánh hiệu số giữa một galactose của một đối tượng và số trung 
bình của từng nhóm. Theo đó, chúng ta có các nguồn đao động như sau: 


+ _ Tổng bình phương cho toàn bộ mẫu là: 
SST ->>( —)` 


= (1343-2444)? + (1393-2444)? + (1343-2444)? +... + (3657- 2444)? 
= 12133923 


+ _ Tổng bình phương phản ánh độ khác nhau giữa các nhóm: 
kẽ ` (IẾ 
S58=3(q-*)` = Xm(x,-*) 
T7 7 


= 9(1910 - 2444)? + 11(2226 - 2444)? + 20(2804 - 2444)? 
= 5681168 
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« _ Tống bình phương phản ánh độ dao động trong mỗi nhóm: 


<Ý 3 
sw=EBs~5Ÿ = E(m~)j 
= (9-1)(265944) + (11-1)(473387) + (20-1)(277500) 
= 12133922 
Có thể chứng minh rằng: SST = SSB + SSW, 


SSW được tính từ mỗi bệnh nhân cho 3 nhóm, cho nên trung bình bình 
phương cho từng nhóm (mean square - ASW) là: 


MSW = SSW /(N - k) = 12133922 / (40-3) = 327944 
và trung bình bình phương giữa các nhóm là: 
MSB = SSB / (k- 1) = 5681168 / (3-1) = 2841810 

Trong đó N là tổng số bệnh nhân (N = 40) của ba nhóm, và k = 3 là số 
nhóm bệnh nhân. Nếu có sự khác biệt giữa các nhóm, thì chúng ta kì vọng 
rằng A1SB sẽ lớn hơn A4SW. Thành ra, để kiểm tra giả thiết, chúng ta có thể 
dựa vào kiểm định E: 

E= MSB/ MSW = 8.67 [3] 


Với bậc tự do k-1 và N-k. Các số liệu tính toán trên đây có thể trình bày. 
trong một bảng phân tích phương sai (ANOVA table) như sau: 

















Khác biệt giữa các nhóm 

lbetuset-zrcuDƒ 2 5681168 2841810 | 86655 
Khác biệt trong từng nhóm 37 12133923 327944 

(with-group) 

Tổng số Ï 39 | 12133923 | 








11.1.2 Phân tích phương sai đơn giản với R 


'Tất cả các tính toán trên tương đối phức tạp, và tốn khá nhiều thời gian. 
Tuy nhiên với R, các tính toán đó có thể làm trong vòng 1 giây, sau khi dữ liệu 
đã được chuẩn bị đúng cách. 

(a) Nhập đữ liệu. Trước hết, chúng ta cần phải nhập dữ liệu vào R. Bước 
thứ nhất là báo cho R biết rằng chúng ta có ba nhóm bệnh nhân (1, 2 và 3), 
nhóm I gồm 9 người, nhóm 2 có 11 người, và nhóm 3 có 20 người: 
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> group <- c(1,1,1,1,1,1,1,1,1, 2,2,2,2,2,2,2,2,2,2,2, 
3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3) 
Để phân tích phương sai, chúng ta phải định nghĩa biến group là một 
yếu tố - factor. 
> group <- as.factor (group)} 
Bước kế tiếp, chúng ta nhập số liệu galactose cho từng nhóm như định 
nghĩa trên (gọi object là galactose): 
> galactose <- c(1343, 1393, 1420, 1641,1897,2160, 2169, 2279, 
2890, 1264, 1314, 1399, 1605,2385, 2511, 2514, 
2761,2827, 2895, 3011, 1809, 2850, 1926, 2964, 
2283, 2973, 2384, 3171,2447, 3257, 2479, 3271, 
2495, 3288, 2525, 3358, 2541, 3643, 2769, 3657) 
Đưa hai biến group và ga1actese vào một dataframe và gọi là data: 
> data <- data.frame(group, galactose) 
> attach (data) 
Sau khi đã có dữ liệu sẵn sàng, chúng ta dùng hàm 1m() để phân tích 
phương sai như sau: 
> analysis <- 1m(galactose ~ group) 
“Trong hàm trên chúng ta cho R biết biến ga1actose là một hàm số của 
group. Gọi kết quả phân tích là ana 1 ysi s. 
(b) Kết quả phân tích phương sai. Bây giờ chúng ta dùng lệnh aneva để 
biết kết quả phân tích: 


> anova (analysis} 
Analysis of Variance Table 








Response: galactose 

Df Sum §q Mean Sq F value Pr(>F) 
group 2 5683620 2841810 8.6655 0.0008191 *** 
Residuals 37 12133923 327944 


Signif. codes: 0 \***“ 0.001 9***° 0.01 9** 0.05 *.° 0.19 v1 

Trong kết quả trên, có ba cột: D£ (degrees of freedom) là bậc tự đo; Sum. 
Sa là tổng bình phương (sum ofsquares),Mean. Sq là trung bình bình phương 
(mean square); E va1ue là giá trị F như định nghĩa [3] vừa để cập phần trên; 
và Pr (>F) là trị số P liên quan đến kiểm định F. 
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Dòng group trong kết quả trên có nghĩa là bình phương giữa các 
nhóm (between-groups) và residua1 là bình phương trong mỗi nhóm 
(within-group). Ở đây, chúng ta có: | 


SSB = 5683620 và A4SB =2841810 


Và: 
MSB = 2841810 và AMSB = 327944 


Như vậy, F = 2841810 / 327944 = 8.6655. 


“Trị số p = 0.00082 có nghĩa là tín hiệu cho thấy có sự khác biệt về độ 
galactose giữa ba nhóm. 


(e) Ước số. Để biết thêm chỉ tiết kết quả phân tích, chúng ta dùng lệnh 
summary như sau: 


> summary (analysis) 


Call: 
1m(formula = galactose ~ group) 


Residuals: 
Min 1Q Median 3Q Max 
~995.5 -437.9 102.0 456.0 979.8 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1910.2 190.9 10.007 4.5e-12 *** 
group2 316.3 257.4 1.229 0.226850 
group3 894.3 229.9 3.891 0.000402 *** 


Signif, codes: 0 ***** 0,001 **** 0.01 *** 0.05 *.° 0.1 * *1 


Residual standard error: 572.7 on 37 degrees o£ freedom 
Multiple R-Squared: 0.319,  Adjusted R-squared: 0.2822 
E~statistic: 8.666 on 2 and 37 DF, p-value: 0.0008191 


“Theo kết quả trên đây, intercept chính là @ trong mô hình [1]. Nói 
cách khác, @ = 1910 và sai số chuẩn là 190.9. 

Để ước tính thông số ở,, R đặt ở, = 0, và ở, =ê, — ô,= 316.3, với sai số 
chuẩn là 257, và kiểm định t = 316.3 / 257 = 1.229 với trị số p = 0.2268. Nói 
cách khác, so với nhóm 1 (bệnh nhân Crohn), bệnh nhân viêm ruột kết có độ 
galactose trung bình cao hơn 257, nhưng đô khác biệt này không có ý nghĩa 
thống kê. 
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Tương tự, ở, =ở,—, = 894.3, với sai số chuẩn là 229.9, kiểm định 
t = 894.3/229.9 = 3.89, và trị số p = 0.00040. So với bệnh nhân Crohn, 
nhóm đối chứng có độ galactose cao hơn 894, và mức độ khác biệt này có 
ý nghĩa thống kê. 





11.2 So sánh nhiều nhóm (multiple comparisons) 
và điều chỉnh trị số p 


Cho knhóm, chúng ta có ít nhất là k(k-1)/2 so sánh. Ví dụ trên có 3 nhóm, 
cho nên tổng số so sánh khả đi là 3 (giữa nhóm 1 và 2, nhóm 1 và 3, và nhóm 2 
và 3). Khi k=10, số lần so sánh có thể lên rất cao. Như đã để cập trong chương 
7, khi có nhiều so sánh, trị số p tính toán từ các kiểm định thống kê không 
còn ý nghĩa ban đầu nữa, bởi vì các kiểm định này có thể cho ra kết quả dương 
tính giả (tức kết quả với p<0.05 nhưng trong thực tế không có khác nhau hay. 
ảnh hưởng). Do đó, trong trường hợp có nhiều so sánh, chúng ta cần phải điểu 
chỉnh trị số p sao cho hợp lí. 


Có khá nhiều phương pháp điểu chỉnh trị số p, và 4 phương pháp 
thông dụng nhất là: Bonferroni, Scheffé, Holm và Tukey (tên của 4 nhà 
thống kê học). Phương pháp nảo thích hợp nhất? Không có câu trả lời dứt 
khoát cho câu hỏi này, nhưng hai điểm sau đây có thể giúp bạn đọc quyết 
định tốt hơn: 


a. Nếu k< 10, chúng ta có thể áp dụng bất cứ phương pháp nào để điều 


chỉnh trị số p. Riêng cá nhân tôi thì thấy phương pháp Tukey thường 
rất hữu ích trong so sánh. 


b. Nếu k> 10, phương pháp Bonferroni có thể trở nên rất “bảo thủ”. Bảo 
thủ ở đây có nghĩa là phương pháp này rất ít khi nào tuyên bố một so 
sánh có ý nghĩa thống kê, dù trong thực tế là có thật! Trong trường hợp 
này, các phương pháp Tukey, Holm và Scheffé có thể áp dụng. 

Ở đây, chúng ta sẽ không bàn đến lí thuyết đằng sau các phương pháp này 
(vì bạn đọc có thể tham khảo trong các sách giáo khoa về thống kê), nhưng 
sẽ chỉ cách sử dụng R để tiến hành các so sánh theo phương pháp của Tukey. 

Quay lại ví dụ trên, các trị số p trên đây là những trị số chưa được điểu 
chỉnh cho so sánh nhiều lần. Trong chương về trị số p, đã nói các trị số này 
phóng đại ý nghĩa thống kê, không phản ánh trị số p lúc ban đầu (tức 0.05). Để 
điểu chỉnh cho nhiếu so sánh, chúng ta phải sử dụng đến phương pháp điều 
chỉnh Bonferroni. 


'Rlpe/ffelun heploerg 


Chúng ta có thể dùng lệnh pai rwi se. t.test để có được tất cả các trị 
số p so sánh giữa ba nhóm như sau: 


> pairwise.t.test(galactose, group, p.adj="bonferroni") 
Pairwise comparisons using t tests with pooled SD 
data: galactose and group 
1 2 


2 0.6805 - 
3 0.0012 0.0321 


P value adjustment method: bonferroni 


Kết quả trên cho thấy trị số p giữa nhóm 1 (Crohn) và viêm ruột kết là 
0.6805 (tức không có ý nghĩa thống kê); giữa nhóm Crohn và đối chứng là 
0.0012 (có ý nghĩa. thống kê), và giữa nhóm viêm ruột kết và đối chứng h 
0.0321 (tức cũng có ý nghĩa thống kẻ). 


Một phương pháp điếu chỉnh trị số p khác có tên là phương pháp HolÌm: 


> pairwise.t.test(galactose, group} 
Pairwise comparisons using t tests with pooled §D 


data: galactose and group 


1 2 
2 0.2268 ~ 
3 0.0012 0.0214 
P value adjustment method: holm 
Kết quả này cũng không khác so với phương pháp Bonferroni. 


“Tất cả các phương pháp so sánh trên sử dụng một sai số chuẩn chung cho 
cả ba nhóm. Nếu chúng ta muốn sử dụng cho từng nhóm thì lệnh sau đây. 
(poo1.. sd=F) sẽ đáp ứng yêu cầu đó: 


> pairwise.t.test(galactose, group, pool.sd=FALSE) 
Pairwise comparisons using t tests with non-pooled SD 
data: galactose and group 
1 2 
2 0.2557 ~ 
3 0.0017 0.0544 


P value adjustment method: holm 


Một lần nữa, kết quả này cũng không làm thay đổi kết luận. 
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11.2.1 So sánh nhiều nhóm bằng phương pháp Tukey 

Trong các phương pháp trên, chúng ta chỉ biết trị số p so sánh giữa các 
nhóm, nhưng không biết mức độ khác biệt cũng như khoảng tin cậy 95% giữa 
các nhóm. Để có những ước số này, chúng ta cần đến một hàm khác có tên là 
Aov (viết tắt từ analysis of variance) và hàm Tukey#SD (HSD là viết tắt từ 
Honest Signiñcant Diference, tạm dịch là “Khác biệt có ý nghĩa thành thật") 
như sau: 

> res <- aov(galactose ~ group} 

> TukeyHSD (res) 

Tukey multiple comparisons of means 

95% family-wise confidence level 
Fit: aov(formula = galactose ~ group} 
$group 
diff 1wr upr p a4} 

2-1 316.3232 ~312.09857 944.745 0.4439821 

3-1 894,2778 333,07916 1455.476 0.0011445 

3-2 577.9545 53.11886 1102.790 0.0281768 


Kết quả trên cho chúng ta thấy nhóm 3 và 1 khác nhau khoảng 894 đơn 
vị, và khoảng tin cậy 95% từ 333 đến 1455 đơn vị. Tương tự, galactose trong, 
nhóm bệnh nhân viêm ruột kết thấp hơn nhóm đối chứng (nhóm 3) khoảng 
578 đơn vị, và khoảng tin cậy 95% từ 53 đến 1103. 


.95% family.wise confidence level 








XTF—T——T————] 


So 


| 





ø s00 1000. 1500 
Differences in mean levels í group 


Biểu đồ 1. Trung bình hiệu và khoảng tin cậy 95% giữa nhóm 1 và 2, 1 và 3, và 3 và 2. 
Trục hoành là độ galactose, trục tung là ba so sánh. 
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11.2.2 Phân tích bằng biểu đồ 


Một phân tích thống kê không thể nào hoàn tất nếu không có một đố thị 
minh họa cho kết quả. Các lệnh sau đây vẽ đồ thị thể hiện độ galactose trung 
bình và sai số chuẩn cho từng nhóm bệnh nhân. Biểu đồ này cho thấy, nhóm 
bệnh nhân Crohn có độ galactose thấp nhất (nhưng không thấp hơn nhóm 
viêm ruột kết), và cả hai nhóm thấp hơn nhóm đối chứng và sự khác biệt này 
có ý nghĩa thống kê. 

> xbar <- tapply(galactose, group, mean) 

8 <- tapply(galactose, group, sd) 

n <- tapply(galactose, group, length) 

sem <- s/sqrt(n) 

stripchart (galactose ~ group, "jitter", jit=0.05, 
pch=16, vert=TRUE) 

arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, 
length=0.1) 

lines(1:3, xbar, pch=4, type="b", cex=2) 


> 
> 
> 
a 


v 


v 
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Biểu đồ 2. Độ galactose của nhóm 1 (bệnh nhân Crohn), 
nhóm 2 (bệnh nhân viêm ruột kết), và nhóm 3 (đối chứng). 


11.3 Phân tích bằng phương pháp phi tham số 


Phương pháp so sánh nhiều nhóm phi tham số (non-parametric statistics) 
tương đương với phương pháp phân tích phương sai là Kruskal-Wallis. Cũng 
như phương pháp Wilcoxon so sánh hai nhóm theo phương pháp phi tham 
số, phương pháp Kruskal-Wallis cũng biến đổi số liệu thành thứ bậc (ranks) 
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và phân tích độ khác biệt thứ bậc này giữa các nhóm. Hàm kruskal.test 
trong R có thể giúp chúng ta trong kiểm định này: 


> kruskal.test(galactose ~ group) 
Kruskal-Wallis rank sum test 
đata: galactose by group 


Kruskal-Wallis chỉ-squared = 12.1381, df = 2, 
p-value = 0.002313 


Trị số p từ kiểm định này khá thấp (p = 0.002313) cho thấy có sự khác 
biệt giữa ba nhóm như phân tích phương sai qua hàm 1m trên đây. Tuy nhiên, 
một bất tiện của kiểm định phi tham số Kruskal-Wallis là phương pháp này 
không cho chúng ta biết hai nhóm nào khác nhau, mà chỉ cho một trị số 
p chung. Trong nhiều trường hợp, phân tích phi tham số như kiểm định 
Kruskal-Wallis thường không có hiệu quả như các phương pháp thống kê 
tham số (parametric statistics). 


11.4 Phân tích phương sai hai chiều 
(two-way analysis of variance - ANOVA) 


Phân tích phương sai đơn giản hay một chiếu chỉ có một yếu tố (factor). 
Nhưng phân tích phương sai hai chiếu (two-way ANOVA), như tên gọi, có hai 
yếu tố. Phương pháp phân tích phương sai hai chiếu chỉ đơn giản khai triển 
từ phương pháp phân tích phương sai đơn giản. Thay vì ước tính phương sai 
của một yếu tố, phương pháp phương sai hai chiểu ước tính phương sai của 
hai yếu tố. 


Ví dụ 2: Trong ví dụ sau đây, để đánh giá hiệu quả của một kĩ thuật sơn 
mới, các nhà nghiên cứu áp dụng sơn trên 3 loại vật liệu (1, 2 và 3) trong hai 
điểu kiện (1, 2). Mỗi điều kiện và loại vật liệu, nghiên cứu được lặp lại 3 lần. 
Độ bển được đo là chỉ số bển bỉ (tạm gọi là seore). Tổng cộng, có 18 số liệu 
như sau: 


Bảng 2. Độ bến bì của sơn cho 2 điếu kiện và 3 vật liệu. 








3.5,3.2,36 
2 27,3.1,26 19,22,23 | 27,23,25 
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Số liệu này có thể tóm lược bằng số trung bình cho từng điểu kiện và vật 
liệu trong bảng thống kê sau đây: 


Bảng 3. Tóm lược số liệu từ thí nghiệm độ bền bỉ của nước sơn 


VẬT LIỆU (/) TRUNG 
“.. [TT nh 





























Trung bình 

1 L + 307 343 3.533 
2 280 213 250 2478 
Trung bình 2 nhóm | _ 3450 2600 2967 3.00 
Phương sai 

1 |__oo4o 0.063 0043 

2 | 0070 0.043 0040 

















Những tính toán sơ khởi trên đây cho thấy có thể có sự khác nhau (hay 
ảnh hưởng) của điểu kiện và vật liệu thí nghiệm. 


Gọi x,là score của điểu kiện í (¡ = 1, 2) cho vật liệu j (/ = 1, 2, 3). (Để 
đơn giản hóa vấn đề, chúng ta tạm thời bỏ qua k đối tượng). Mô hình phân 
tích phương sai hai chiều phát biểu rằng: 

x,=u+@,+,+£, 14] 
Hay cụ thể hơn: x,, = + 0, + , + £,, 
xu =lU+†0,+,+E), 
Xu, =U+0 +, +), 
xu =MU+0, +, +£,, 
Xu =M+0,+,+E,, 
x„=lU+0,+,+E,, 
là số trung bình cho toàn quần thể, các hệ số œ, (ảnh hưởng của điều kiện 


) và j, (ảnh hưởng của vật liệu /) cần phải ước tính từ số liệu thực tế. e, được 
giả định tuân theo luật phân phối chuẩn với trung bình 0 và phương sai Ơ`. 


Trong phân tích phương sai hai chiếu, chúng ta cần chia tổng bình phương 
ra thành 3 nguồn: 
« _ Nguồn thứ nhất là tổng bình phương do khác biệt giữa 2 điều kiện: 
$%c=Sn(%,~x) 
D 
= 9(3.533 - 3.00)? + 9(2.478 - 3.00)? 
=5.01 
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+ _ Nguồn thứ hai là tống bình phương do khác biệt giữa 3 vật liệu: 
sm= Xn (g-xŸ 
7 
= 6(3.45 - 3.00)? + 6(2.60 ~ 3.00)?+ 6(2.967 - 3.00)? 
=2.18 


« _ Nguồn thứ ba là tổng bình phương phần dư (residual sum of squares): 
s%=XX(x,~5,~x,+x) = X(m =1) 
c7 


= 2(0.040) + 2(0.063) + 2(0.043) + 2(0.070) + 2(0.043) + 2(0.040) 
=0.73 
Trong các phương trình trên, n = 3 (lặp lại 3 lấn cho mỗi điểu kiện và vật 
liệu), m = 3 vật liệu, x là số trung bình cho toàn mẫu, +, là số trung bình cho. 
từng điểu kiện, , là số trung bình cho từng vật liệu. Vì SSc có m-1 bậc tự do, 
§Sm có (n -1) bậc tự do, và SSe có N-wm+2 bậc tự do, trong đó N là tổng số 
mẫu (tức 18). Do đó, các trung bình bình phương 
Giữa hai điểu kiện: MSc = SSc / (m-1) = 5.01/1= 5.01 
Giữa ba vật liệu: _ÄMSm = SSc/ (n-1)= 2.18 /2= 1.09 
Phần dư: MSe = SSe/(N-nm+2) = 0.73 / 14 = 0.052 
Do đó, so sánh độ khác biệt giữa hai điểu kiện dựa vào kiểm định 
E= MSŒ/Mse với bậc tự do 1 và 14. Tương tự, so sánh độ khác biệt giữa ba vật 
liệu có thể dựa vào kiểm định F = A1Sm/Mse với bậc tự do 2 và 14. Các phân 
tích trên có thể trình bày trong một bảng phân tích phương sai như sau: 










Khác biệt giữa 2 điều kiện 





Khác biệt giữa 3 vật liệu | 2 218 109 208 





Phần dư (residual) | 1⁄4 073 0052 





Tổng số 
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11.4.1 Phân tích phương sai hai chiều với R 


(a) Bước đầu tiên là nhập số liệu từ bảng 11.2 vào R. Chúng ta cần phải 
tổ chức đữ liệu sao cho có 4 biến như sau: 


Condition Material Đi tượng Score 
(điều kiện) (vật liệu) 

1 bộ 1 4.1 
1 1 2 3.9 
1 1 3 4.3 
1 2 4 3.1 
1 2 5 2.8 
1 2 6 3.3 
kN 3 T 3.5 
1 3 8 3.2 
1 3 9 3.6 
2 1 10 2.7 
2 1 11 3.1 
2 1 12 2.6 
2 2 13 1.9 
2 2 14 2.2 
2 2 15 2.3 
2 3 16 2/7 
2 3 17 2.3 
2 3 18 2.5 


Chúng ta có thể tạo ra một dãy số bằng cách sử dụng hàm g1 (generating 
levels). Cách sử dụng hàm này có thể minh họa như sau: 

> g1(9, 1, 18) 

H13323456790912535 456717189 

Levels: 1 2 34 56789 

Trong lệnh trên, chúng ta tạo ra một dây số 1, 2, 3, ... 9 hai lần (với tổng số 
18 số). Mỗi một lần là một nhóm. Trong khi lệnh: 

> g1(4, 9, 36) 


11131313211113122222222233333535353 
3444444243434 


Levels: 1 2 3 4 
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Trong lệnh trên, chúng ta tạo ra một dãy số với 4 bậc (1, 2, 3, 4) 9 lần (với 
tổng số 36 số). 

Do đó, để tạo ra các bậc cho điểu kiện và vật liệu, chúng ta lệnh như sau: 

> condition <- g1(2, 9, 18) 

> material <- gl(3, 3, 18) 

Và tạo nên 18 mã số (tứ 1 đến 18): 

> id <- 1:18 

Sau cùng là số liệu cho scoze: 

> score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6, 

2. N,3:1/2.6) 1,8;8:2i8:3y 2:19/2:3/2.5) 

“Tất cả cho vào một dataframe tên là da ta: 

> data <- data.frame(condition, material, id, score 

> attach (data) 

(b) Phân tích và kết quả sơ khởi. Bây giờ số liệu đã sẵn sàng cho phân 
tích. Để phân tích phương sai hai chiểu, chúng ta vẫn sử dụng lệnh 1m với 
các thông số như sau: 


> twoway <- 1m(score ~ condition + material) 
> anova (twoway) 
Analysis of Variance Table 


Response: score 

Df Sum §q Mean §q F value Pr(>F) 
condition 1 5.0139 5.0139 95.575 1.235e-07 *** 
material 2 2.1811 1.0906 20.788 6.437e-05 *** 
Residuals 14 0.7344 0.0525 


Signif. codes: 0 ****° 0.001 **** 0.01 **“ 0.05 Y.“° 0.1 * v1 

Ba nguồn dao động (variation) của score được phân tích trong bảng 
trên. Qua trung bình bình phương (mean square), chúng ta thấy ảnh hưởng 
của điểu kiện có vẻ quan trọng hơn là ảnh hưởng của vật liệu thí nghiệm. Tuy 
nhiên, cả hai ảnh hưởng đều có ý nghĩa thống kê, vì trị số p rất thấp cho hai 
yếu tố. 
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(c) Ước số. Chúng ta yêu cầu R tóm lược các ước số phân tích bằng lệnh 
summary: 

> summary (twoway) 

Call: 

1m(formula = score ~ condition +| materiajL} 


Residua1s: 
Min 1Q Median 30 Max 
~0.32778 -0.16389 0.03333 0.16111 0.32222 


Coefficients: 

Estimate §td. Error t value Pr(>|tl) 
(Intercept) 3.9778 0.1080 36.841 2.43e-15 *** 
condition2 -1.0556 0.1080 -9.776 1.24e-07 *** 
material2 ~0.8500 0.1322 ~6.428 1.58e-05 *** 
material3 -~0.4833 0.1322 -3.655 0.0026 ** 

Signif., codes: 0 ***** 0,001 9*** 0.01 **“ 0.05 Y,° 0,1 \ Ò 

Residual standard error: 0.229 on 14 degrees of freedom 
Multiple R-Squared: 0.9074, Adjusted R-squared: 0.8875 
F-statistic: 45.72 on 3 and 14 DF, p-value: 1.76le-07 


Kết quả trên cho thấy so với điểu kiện 1, điểu kiện 2 có seore thấp hơn. 
khoảng 1.056 và sai số chuẩn là 0.108, với trị số p = 1.24e-07, tức có ý nghĩa 
thống kê. Ngoài ra, so với vật liệu 1, seore cho vật liệu 2 và 3 cũng thấp hơn 
đáng kể với độ thấp nhất ghi nhận ở vật liệu 2, và ảnh hưởng của vật liệu thí 
nghiệm cũng có ý nghĩa thống kê. 

Giá trị có tên là "Residual standard error " được ước tính từ 
trung bình bình phương phần dư trong phần (a), tức là v/0.0525 = 0.229, tức 
là ước số của ở. 

Hệ số xác định bội (R3) cho biết hai yếu tố điểu kiện và vật liệu giải thích 
khoảng 91% độ dao động của toàn bộ mẫu. Hệ số này được tính từ tổng bình 
phương trong kết quả phấn (a) như sau: 


Š:- 5.0139+2.1811 


“——————=09074 
$.0139+2.1811+0.7344 
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Và sau cùng, hệ số R? điểu chỉnh phản ánh độ “cải tiến” của mô hình. 
Để hiểu hệ số này tốt hơn, chúng ta thấy phương sai của toàn bộ mẫu là 
$° = (5.0139 + 2.1811 + 0.7344) / 17 = 0.4644. Sau khi điểu chỉnh cho ảnh 
hưởng của điểu kiện và vật liệu, phương sai này còn 0.0525 (tức là residual 
mean square). Như vậy hai yếu tố này làm giảm phương sai khoảng 
0.4644 - 0.0525 = 0.4119. Và hệ số R điểu chỉnh là: 


Adj RẺ = 0.4119 / 0.4644 = 0.88 


“Tức là sau khi điểu chỉnh cho hai yếu tố điểu kiện và vật liệu phương sai 
của score giảm khoảng 88%. 


(đ) Hiệu ứng tương tác (interaction effects) 


Để cho phân tích hoàn tất, chúng ta còn phải xem xét đến khả năng ảnh 
hưởng của hai yếu tố này có thể tương tác nhau (interactive efects). Tức là mô 
hình score trở thành: 


x„=u+a,+8,+(ø,8, ), +£, 


Chú ý phương trình trên có phần (2,8, ), phản ánh sự tương tác giữa hai 
yếu tố. Và chúng ta chỉ đơn giản lệnh R như sau: 


> anova (twoway <- 1m(score ~ condition+ 
material+condition*material) ) 
Analysis of Variance Table 


Response: score 
Df Sum §q Mean $q F value Pr(>F) 
condition 1 5.0139 5.0139 100.2778 3.528e-07 *** 
material 2 2.1811 1.0906 21.8111 0.0001008 *** 
condition:material 
2 0.1344 0.0672 1.3444 0.2972719 
Residuals 12 0.6000 0.0500 


Signif. codes: 0 ***** 0.001 ****° 0.01 *** 0.05 *.“° 0.1 * *\1 


Kết quả phân tích trên (p = 0.297 cho ảnh hưởng tương tác). Chúng ta có. 
bằng chứng để kết luận rằng ảnh hưởng tương tác giữa vật liệu và điểu kiện 
không có ý nghĩa thống kê, và chúng ta chấp nhận mô hình [4], tức không có 
tương tác. 
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(e) So sánh giữa các nhóm. Chúng ta sẽ ước tính độ khác biệt giữa hai 
điều kiện và ba vật liệu bằng hàm TukeyHSD với aov: 
> res <- aov(score ~ conditiont material+condition) 
> TukeyHSD (res) 
Tukey multiple comparisons of means 
95% family-wise confidence level 


Fit: aov(formula = score ~ condition + material + condition) 


$condition 
di££ lựr upr p ađj 
2~1 -1.055556 -1.287131 -0.8239797 1e-07 


$material 

di£f lựt upr p ađj 
2-1 -0.8500000 -1.19610279 ~0.5038972 0.0000442 
3-1 -0.4833333 -0.82943612 -0.1372305 0.0068648 


3-2 0.3666667 0.02056388 0.7127695 0.0374069 
Biểu đồ 3 sau đây sẽ minh họa cho các kết quả trên: 


> plot (TukeyHSD (res)„ ordered=TRUE 
There were 16 warnings (use warnings() to see them 





'95% family-wise confidenee level 
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Biểu đồ 3. So sánh giữa 3 loại vật liệu. Biểu đồ 4. Trung bình score 
bằng phương pháp Tukey. cho từng điều kiện 1 (đường đứt đoạn) 


và điều kiện 2 cho 3 loại vật liệu. 
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(£) Biểu đồ. Để xem qua độ ảnh hưởng của hai yếu tố điểu kiện và vật liệu, 
chúng ta cẩn phải có một đồ thị, mà trong phân tích phương sai gọi là đố thị 
tương tác. Hàm interaction.plot cung cấp phương tiện để vẽ biểu đổ 
này (xem biểu đồ 4): 


> interaction.plot(score, condition, material) 


11.5 Phân tích hiệp biến (analysis of covariance - ANCOVA) 

Phân tích hiệp biến (sẽ viết tất là ANCOVA) là phương pháp phân tích sử 
dụng cả hai mô hình hồi qui tuyến tính và phân tích phương sai. Trong phân tích 
hồi qui tuyến tính, cả hai biến phụ thuộc (dependent variable, cũng có thể gọi là 
“biến ứng” - response variable) và biến độc lập (independent variable hay predictor. 
variable) phấn lớn là ở đạng liên tục (continuous variable), như độ cholesterol 
và độ tuổi chẳng hạn. Trong phân tích phương sai, biến phụ thuộc là biến liên 
tục, còn biến độc lập thì ở dạng thứ bậc và thể loại (categorical variable), như độ 
galactose và nhóm bệnh nhân trong ví dụ 1 chẳng hạn. Trong phân tích hiệp biến, 
biến phụ thuộc là liên tục, nhưng biến độc lập có thể là liên tục và thể loại. 


Ví dụ 3: Trong nghiên cứu mà kết quả được trình bày dưới đây, các nhà 
nghiên cứu đo chiểu cao và độ tuổi của 18 học sinh thuộc vùng thành thị 
(urban) và 14 học trò thuộc vùng nông thôn (rural). 


Bảng 4. Chiếu cao của học trò vùng thành thị và nông thôn 
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rural 1 Ị 121 1390. 
rural 2 | 121 140.9 
rural 3 | 128 134.9 
rural 4 | 129 149.5 
rural 5 | T31 148.7 
rural 6 | 132 1310 
rural 7 | 133 142.3 
rural 8 | 134 1399 
rural 9 | 138 1429 
rural 10 | 138 147.7 
rural 1 | 138 147.7 
rurail 12 140 1346 
rurail 13 140 1358 
ruai 14 140 1485 














Câu hỏi đặt ra là có sự khác biệt nào về chiếu cao giữa trẻ em ở thành thị 
và nông thôn hay không. Nói cách khác, môi trường cư trú có ảnh hưởng đến 
chiểu cao hay không, và nếu có thì mức độ ảnh hưởng là bao nhiêu? 


Một yếu tố có ảnh hưởng lớn đến chiếu cao là độ tuổi. Trong độ tuổi 
trưởng thành, chiếu cao tăng theo độ tuổi. Do đó, so sánh chiếu cao giữa hai 
nhóm chỉ có thể khách quan nếu độ tuổi giữa hai nhóm phải tương đương 
nhau. Để đảm bảo tính khách quan của so sánh, chúng ta cẩn phải phân tích 
số liệu bằng mô hình hiệp biến. 


Việc đầu tiên là chúng ta phải nhập số liệu vào R với những lệnh sau đây; 


# tạo ra dây số id 
> Íd <- c(1:18, 1:14) 
# group 1=urban 2=rural và cẩn phải xác định group là một "factor" 


> group <- c€(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 
2,2,2,2,2,2,2,2,2,2,2,2,2,2) 
> group <- as.factor (group) 


# nhập dữ liệu 

age <— c(109,113,115,116,119,120,121, 124,126,129, 130, 
133,134,135, 137,139,141,142, 121,121,128, 
129,131,132,133,134,138, 138, 138,140, 140,140) 


vv 


> height <- c(137.6,147.8,136.8,140.7,132.7,145.4,135.0, 
133.0,148.5, 148.3,147.5,148.8,133.2, 
148.7,152.0,150.6,165.3,149.9, 
139.0,140.9,134.9,149.5,148.7,131.0,142.3, 
139.9,142.9,147.7,147.7,134.6,135.8,148.5) 


# tạo một data frame 
data <- data.frame(id, group, age, height) 


> attach (data) 


vv 
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Chúng ta thử xem qua vài chỉ số thống kê mô tả bằng cách ước tính độ 
tuổi và chiểu cao trung bình cho từng nhóm học sinh: 
> tapply(age, group, mean 
1 2 


126.8333 133.0714 
> tapply(height, group, mean) 
H 2 


144.5444 141.6714 

Kết quả trên cho thấy nhóm học sinh thành thị có độ tuổi thấp hơn học 
sinh nông thôn khoảng 6.3 tháng (126.8 - 133.1). Tuy nhiên, chiểu cao của 
học sinh thành thị cao hơn học sinh nông thôn khoảng 2.8 cm (144.5 - 141.7). 
Bạn đọc có thể dùng kiểm định t để thấy rằng sự khác biệt về độ tuổi giữa hai 
nhóm có ý nghĩa thống kê (P = 0.045). 

Ngoài ra, biểu đổ sau đây còn cho thấy có một mối liên hệ tương quan 
giữa tuổi và chiểu cao: 





9 : 
8 

x. . É cá 

š : $& 9S „3 

TẾ uy x 


140 


135 








130 





Biểu đồ 5. Chiều cao (cm) và độ tuổi (tháng tuổi) 
của hai nhóm học sinh thành thị và nông thôn. 


Vì hai nhóm khác nhau về độ tuổi, và tuổi có liên hệ với chiểu cao, cho 
nên chúng ta không thể phát biểu hay so sánh chiểu cao giữa 2 nhóm học sinh 
mà không điểu chỉnh cho độ tuổi. Để điều chỉnh độ tuổi, chúng ta sử dụng. 
phương pháp phân tích hiệp biến. 
_209 — 
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11.5.1 Mô hình phân tích hiệp biến 

Gọi y là chiếu cao, x là độ tuổi, và g là nhóm. Mô hình căn bản của 
ANCOVA giả định rằng mối liên hệ giữa y và x là một đường thẳng, và độ dốc 
(gradient hay slope) của hai nhóm trong mối liên hệ này không khác nhau. 
Nói cách khác, viết theo kí hiệu của hồi qui tuyến tính, chúng ta có: 


3ị,=@+x+e, in group 1 


}› =Œœ+jx+e,; in group 2. [5] 

Trong đó: 

,: là giá trị trung bình của y khi x= 0 của nhóm I; 

œ,: là giá trị trung bình của y khi x= 0 của nhóm 2; 

8: độ dốc của mối liên hệ giữa y và x, 

e, và e,: biến số ngẫu nhiên với trung bình 0 và phương sai Ø. 

Gọi X là số trung bình của độ tuổi cho cả 2 nhóm, * và %; là tuổi trung 
bình của nhóm 1 và nhóm 2. Như đã nói ở trên, nếu  # š;, thì so sánh chiểu 
cao trung bình của nhóm 1 và 2 (ÿ, và ÿ;) sẽ thiếu khách quan, vì 

=8, +5, +& 
7=, +ổX,+e, 

và mức độ khác biệt giữa hai nhóm bây giờ tùy thuộc vào hệ số |: 

3ị~ð; =&, =ứ, +/Ø( ~;) 

Chú ý rằng trong mô hình [5], chúng ta có thể điễn dịch ø, — ø; là độ khác 
biệt chiểu cao trung bình giữa hai nhóm nếu cả hai nhóm có cùng tuổi trung 
bình. Mức khác biệt này thể hiện ảnh hưởng của hai nhóm nếu không có một 
yếu tố nào liên hệ đến y. Để ước tính ø, - z;, chúng ta không thể đơn giản trừ 
hai số trung bình ÿ, - ÿ,, nhưng phải điểu chỉnh cho x. Gọi x* là một giá trị 
chung cho cả hai nhóm, chúng ta có thể ước tính giá trị điểu chỉnh y cho nhóm. 
1 (kí hiệu 7¡,) như sau: 

5„=54~#(5~*') 


„ có thể xem là một ước số cho chiếu cao trung bình của nhóm 1 (thành 
thị) cho giá trị x là x*. Tương tự: 





32, =3: ~Ø(%~x') 
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là ước số cho chiếu cao trung bình của nhóm 2 (nông thôn) với cùng giá 
trị x". Từ đây, chúng ta có thể ước tính ảnh hưởng của thành thị và nông thôn 
bằng công thức sau đây: 
3, — „=9; =ị ~8(% —%) 


Do đó, vấn đế là chúng ta phải ước tính 8. Có thể chứng minh rằng ước 
số B từ phương pháp bình phương nhỏ nhất cũng là ước tính khách quan cho. 
đ,— œ,. Khi viết bằng mô hình tuyến tính, mô hình hiệp biến có thể mô tả 
như sau: 


y=ứ+x+7g+ð(xg)+e [6] 
Nói cách khác, mô hình trên phát biểu rằng chiếu cao của một học sinh bị 
ảnh hưởng bởi 3 yếu tố: độ tuổi (B), thành thị hay nông thôn (), và tương tác 


giữa hai yếu tố đó (ð). Nếu ồ = 0 (tức ảnh hưởng tương tác không có ý nghĩa 
thống kê), mô hình trên giảm xuống thành: 


y=#+fx+yg+e 7] 


Nếu y= 0 (tức ảnh hưởng của thành thị không có ý nghĩa thống kê), mô 
hình trên giảm xuống thành: 


v=ưtfvr+e [8] 








11.5.2 Phân tích bằng R 

Các thảo luận vừa trình bày trên xem ra khá phức tạp, nhưng trong thực 
tế, với R, cách ước tính rất đơn giản bằng hàm 1m. Chúng ta sẽ phân tích ba 
mô hình [6], [7] và [8]: 

> # model 6 


> model6 <- lm(height ~ group + age + group:age) 


v 


# model 7 


v 


model7 <- lm(height| = group #| age) 


> # model 8 
> model8 <- 1m(hbight| = age)| 
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Chúng ta cũng có thể so sánh cả ba mô ¡ cùng một lúc bằng lệnh 
anova như sau: 


> anova (model6, model7, model8 


Analysis of Variance Table 


Model 1: heighE ~ gFoup + age + group:age 
Model 2: height ~ group + age 
Model 3: height ~ age 


Res.Df RSS Df Sum of $q F Pr (>F) 
1 28 1270.44 
â 29 1338.02 -1 -67,57 1.4893 0.23251 
3 30 1545.95 -1 -207.93 4.5827 0.04114 * 


Signif. codes: 0 ****“° 0,001 **** 0.01 ***° 0,05 Y,“° 0,1 * *\1 


Chú ý “modei 1” chính là mô hình [6], “model 2” là mô hình [7], và 
“model 3”là mô hình [8]. RSS là residual sum o£ squares, tức tổng 
bình phương phần dư cho mỗi mô hình. Kết quả phân tích trên cho thấy: 


« - Toàn bộ mẫu có 18 + 14 = 32 học sinh, mô hình [6] có 4 thông số 
(œ, 8, y và ô), cho nên mô hình này có 32 - 4 = 28 bậc tự do. Tổng 
bình phương của mô hình là 1270.44. 


« _ Mô hình [7] có 3 thông số (tức còn 29 bậc tự do), cho nên tổng bình 
phương phần dư cao hơn mô hình [7]. Tuy nhiên, đứng trên phương 
điện xác suất thì trung bình bình phương phần dư của mô hình này. 
1338.02 / 29 = 46.13, không khác mấy so với mô hình [6] (trung bình 
bình phương là: 1270.44 / 28 = 45.36), vì trị số p = 0.2325, tức không có 
ý nghĩa thống kê. Nói cách khác, bỏ hệ số tương tác ồ không làm thay. 
đổi khả năng tiên đoán của mô hình một cách đáng kể. 

« Mô hình [8] chỉ có 2 thông số (và do đó có 30 bậc tự do), với tổng bình 
phương là 1545.95. Trung bình bình phương phần dư của mô hình này 
là 51.53 (1545.95 / 30), tức cao hơn hai mô hình [6] một cách đáng kể, 
vì trị số p = 0.0411. 

Qua phân tích trên, chúng ta thấy mô hình [7] là tối ứu hơn cả, vì chỉ cần. 
3 thông số mà có thể “giải thích” được dữ liệu một cách đầy đủ. Bây giờ chúng 
ta sẽ chú tâm vào phân tích kết quả của mô hình này. 
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> summary (mode17) 


Call: 
1m(formula = height ~ group + age) 


Residuals: 
Min 10 Median 30 Max 
~14.324 -3.285 0.879 3.956 14.866 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 91.8171 17.9294 5.121 1.81e-05 *** 
group2 -5.4663 2.5749 -2.123 0.04242 * 
age 0.4157 0.1408 2.953 0.00619 ** 


Signif. codes: 0 ***** 0.001 ***“° 0.01 **“ 0.05 *.° 0.1 *\ v1 


Residual standard error: 6.793 on 29 degrees of freedom 
Multiple R-Squared: 0.2588,  Adjusted R-squared: 0.2077 
F-statistic: 5.063 on 2 and 29 DF, p-value: 0.01300 


Qua phấn ước tính thông số trình bày trên đây, chúng ta thấy tính trung 
bình chiếu cao học sinh tăng khoảng 0.41 em cho mỗi tháng tuổi. Chú ý trong 
kết quả trên, phần “grotsp2” có nghĩa là hệ số hồi qui (regression coefficient) 
cho nhóm 2 (tức là nông thôn), vì R phải đặt hệ số cho nhóm 1 bằng 0 để tiện 
việc tính toán. Vì thế, chúng ta có hai phương trình (hay hai đường biểu diễn) 
cho hai nhóm học sinh như sau: 

Đối với học sinh thành thị: 

Height = 91.817 + 0.4157(age) 

Và đối với học sinh nông thôn: 

Height = 91.817 - 5.4663(rural) + 0.4157(age) 

Nói cách khác, sau khi điểu chỉnh cho độ tuổi, nhóm học sinh nông thôn. 
(rura]) có chiểu cao thấp hơn nhóm thành thị khoảng 5.5 cm và mức độ khác 
biệt này có ý nghĩa thống kê vì trị số p = 0.0424. (Chú ý là trước khi điểu chỉnh 
cho độ tuổi, mức độ khác biệt là 2.8 cm). 
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Các biểu đồ sau đây sẽ minh hợa cho các mỏ hình trên: 


> par (mfrow=c (2,2) ) 


v 


> plot (age, hetHEj[ pet=es-charset: (group), main="MG hinh 1”) 
abline (144.54, ÍD) #mean value for urban 
> abline(141.67, ÌD) #mean value|for rural 
> PIGE(age, heighE, pch=as.characEer(group); main="Mo hinh Z"} 
abline (102.63, 0.3138) *singie line for dependence on age 


v 


> plot (age, height, pch=as.character(group), main="Mo hinh 3") 
abline(91.8, 0.416) #line for males 
abline(91.8-5.46,0.416) #line for females parallel 


vv 


plot (age, height, pch=as.character(group), main="Mo hỉnh 4") 
abline(79.7, 0.511) line for males 
abline (79.7+47.08, 0.511-0.399) #line for females parallel 


Par (mfrow=c (1,1)) 


vvvv 
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Biểu đồ 6. Mõ hình 1: chiều cao là hàm số của nơi trú ngụ, nhưng không có liên hệ với độ 
tuổi; Mô hình 2: giả thiết rằng chiếu cao phụ thuộc vào độ tuổi, nhưng không có khác 
nhau giữa hai nhóm thành thị và nông thôn; Mô hình 3: giả thiết rằng mối liên hệ giữa 
chiếu cao và tuối của nhóm thành thị tương đương với nhóm nông thôn (hai đường 
song song), nhưng học sinh thành thị có chiếu cao cao hơn nông thôn; và mô hình 4. 
giả thiết rằng mức độ khác biệt về chiều cao giữa hai nhóm tùy thuộc vào độ tuổi (tức 
có tương tác giữa độ tuổi và nơi trú ngụ): ở tuổi <120 tháng, chiều cao hai nhóm không. 
khác nhau mấy, nhưng khi tuổi >120 tháng tuối thì nhóm học sinh thành thị có chiếu 
cao cao hơn nhóm nông thôn. Phân tích trên cho thấy mô hình 3 là tốt nhất. 
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11.6 Phân tích phương sai cho thí nghiệm giai thừa 
(factorial experiment) 

Ví dụ 4: Để khảo sát ảnh hưởng của 4 loại thuốc trừ sâu (1, 2, 3 và 4) và 
ba loại giống (BI, B2 và B3) đến sản lượng của cam, các nhà nghiên cứu tiến 
hành một thí nghiệm loại giai thừa. Trong thí nghiệm này, mỗi giống cam có 
4 cây cam được chọn một cách ngẫu nhiên, và 4 loại thuốc trừ sâu áp dụng 
(cũng ngẫu nhiên) cho mỗi cây cam. Kết quả nghiên cứu (sản lượng cam) cho. 
từng giống và thuốc trừ sâu như sau: 


Bảng 5. Sản lượng cam cho 3 loại giống và 4 loại thuốc trừ sâu 























Tổng số 136 193 154 211 s94 





Mô hình phân tích thí nghiệm giai thừa cũng không khác gì so với phân 
tích phương sai hai chiếu như trình bày trong phần trên. Cụ thể hơn, mô hình 
mà chúng ta xem xét là: 

Product = Œ + (variety) + Y(pesticide) + £ 

"Trong đó, œ là hằng số biểu hiện trung bình toàn mẫu, § là hệ số ảnh 
hưởng của ba giống cam, Y là hệ số ảnh hưởng của 4 loại thuốc trừ sâu, và là 
phần dư (residual) của mô hình. 

Chúng ta có thể sử dụng hàm aov của R để ước tính các thông số trên. 
như sau: 

# trước hết chúng ta nhập số liệu 

> variety <- c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3) 
pesticide <- c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4) 
> product <- c(29,50,43,53,41,58,42,73,66,85,69,85) 


v 


# định nghĩa variety và pesticide là hai yêu tổ (factors) 
> variety <~- as.factor(variety] 
> pesticide <- as.factor (pesticide) 


# cho vào một dalta frame tên lải data | 
> data <- data.flrame (variety, REabidtail, product) 
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# phân tích phương sai bằng aov và cho vào object analysis 
> analysis <- aov(product ~ variety + pesticide) 
> anova (ana1ysis) 


Analysis of Variance Table 


Response: product 

Df Sum $Sq Mean Sq F value Pr(>F) 
variety 2 2225.17 1112.58 44.063 0.000259 *** 
pesticide 3 1191.00 397.00 15.723 0.003008 ** 
Residuals 6 151.50 25.25 


Signif. codes: 0 ****“° 0.001 ***° 0.01 9** 0.05 *.° 0.19 v1 


Kết quả trên cho thấy cả hai yếu tố giống cây (variety) và thuốc trử sâu. 
(pesticide) đều có ảnh hưởng đến sản lượng cam, vì trị số p < 0.05. Để so sánh 
cụ thể cho từng hai nhóm, chúng ta sử dụng hàm ?ukey1iSD như sau: 


> TukeyHSD (analysis) 


Tukey multiple comparisons of means 
95% family-wise confdence level 


Fit: aov(formula “ product ~ variety + pesticide) 


$variety 
di££ lựr upr p adj 
2- 9.75 -1.152093 20.65209 0.0749103 
3-1 32.50 21.597907 43.40209 0.0002363 
3-2 22.75 11.847907 33.65209 0.001667 _ 








$§pesticide 
diff  1wr tupF p adj 

2-1 19 4.797136 33.202864 0.0140509 
3-1 6 -8.202864 20.202864 0.5106152 
4-1 25 10.797136 39.202864 0.0036109 
3-2 -13 -21.202864  1.202864 0.0704233 
4-2 6 -8.202864 20.202864 0.5106152 
4-3 19 4.792136 33.202864 0.0140509 


Kết quả phân tích giữa các loại giống cho thấy giống B3 có sản lượng cao. 
hơn giống B1 khoảng 32 đơn vị với khoảng tin cậy 95% từ 21 đến 43 (p =0.0002). 
Giống cam B3 cũng tốt hơn giống B2, với độ khác biệt trung bình khoảng 22 
đơn vị (p = 0.0017). Nhưng không có khác biệt đáng kể giữa giống B2 và B1. 
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So sánh giữa các loại thuốc trừ sâu, kết quả trên cho chúng ta biết thuốc 
trừ sâu 4 có hiệu quả cao hơn thuốc 1 và 3. Ngoài ra, thuốc 2 cũng có hiệu quả 
cao hơn thuốc 1. Còn các so sánh khác không có ý nghĩa thống kê. Biểu đổ 
Tukey sau đây minh họa cho kết luận trên. 

> plot (TukeyHSD(analysis), ordered=TRUE) 

95% family-wise conSidence level 


t + 1 


32 41 31 21 


“2 


m———— 


+20 +10 0 10 20 30 40 
'Differences In mean levels of pestcide 


11.7 Phân tích phương sai cho thí nghiệm hình vuông Latin 
(Latin square experiment) 


Ví dụ 5: Để so sánh hiệu quả của 2 loại phân bón (A và B) cùng 2 phương 
pháp canh tác (a và b), các nhà nghiên cứu tiến hành một thí nghiệm hình 
vuông Latin. Theo đó, có 4 nhóm can thiệp tổng hợp từ hai loại phân bón và 
phương pháp canh tác: Aa, Ab, Ba, và Bb (sẽ cho mã số, lần lượt, là 1 = Aa, 
2 = Ab, 3 = Ba, 4= Bb). Bốn phương pháp (treatment) đó được áp dụng trong 
4 mẫu ruộng (sample = 1, 2, 3, 4) và 4 loại cây trồng (variety = 1, 2, 3, 4). Tổng 
cộng, thí nghiệm có 4 x 4 = 16 mẫu. Tiêu chí để đánh giá là sản lượng, và kết 
quả sản lượng được tóm tắt trong bảng sau đây: 


Bảng 6. Sản lượng cho 2 loại phân bón và 2 phương pháp canh tác: 


“ 

















MẪU RUỘNG GIỐNG (VARIETY) 
(SAMPLE) 1 2 3 + 
1 175 143 128 166 
Aa Bạ 8b Ab 
2 170 178 140 131 
Ab Aa Ba Bb 
3 135 1723 169 141 
8b Ab Aa Ba 
4 145 136 165 173 
Ba 8b Ab Aa 
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Câu hỏi đặt ra là các phương pháp canh tác và phân bón có ảnh hưởng 
đến sản lượng hay không. Để trả lời câu hỏi đó, chúng ta phải xem xét đến 
các nguồn làm cho sản lượng thay đổi hay biến thiên. Nhìn qua thí nghiệm và 
bảng số liệu trên, rất dễ dàng hình dung ra 3 nguồn biến thiên chính: 

« _ Nguồn thứ nhất là khác biệt giữa các phương pháp canh tác và phân bón; 

« _ Nguồn thứ hai là khác biệt giữa các loại giống cây; 

« _ Nguồn thứ ba là khác biệt giữa các mẫu ruộng; 

'Và phần còn lại là khác biệt trong mỗi mẫu ruộng và loại giống. Để có một 
cái nhìn chung về số liệu, chúng ta hãy tính trung bình cho từng nhóm qua 
bảng số sau đây: 








TRUNG BÌNH 
.€HO TỪNG MẪU. 


TRUNG BÌNH. 
'CHOTỪNG PHƯƠNG PHÁP. 








TRUNG BÌNH 
.CHO TỪNG LOẠI GIỐNG. 




















1: 156.25 1: 15300 1: 17375 
2: 15750 2: 15475 2: 168.50 
3: 150.50 3: 154.50 3: 14225 
4: 15275 4: 154.75 4: 13250 


Tổng trung bình: 154.25 | Tổng trung bình: 154.25 | Tống trung bình: 154.25 
Bảng tóm lược trên cho phép chúng ta tính tổng bình phương cho từng 
nguồn biến thiên. Khởi đấu là tổng bình phương cho toàn bộ thí nghiệm (sẽ 


tạm gọi là SStotal): 

« _ Tổng bình phương chung cho toàn thí nghiệm: 

§Stotal = (175 - 154.25)? + (143 - 154.25)? +... (165 - 154.25)? 
+ (173 - 154.25)? = 4941 

« _ Tổng bình phương do khác biệt giữa các loại giống (SSvariety). Chú 
ý là vì trung bình mỗi giống được tính từ 4 số, cho nên chúng ta phải 
nhân cho 4 khi tính tổng bình phương: 

§Svariety = 4(156.25 - 154.25)? + 4(157.50 - 154.25)? + 4(150.50 - 154.25)? 
+ 4(152.75 - 154.25)? = 123.5 

Vì có 4 loại giống và một thông số, cho nên bậc tự do là 4 - 1 = 3. Theo 
đó, trung bình bình phương (mean square) là: 123.5 / 3 = 41.2. 

«_ Tổng bình phương do khác bit giữa giống (SSsample). Chú ý là vì 
trung bình mỗi mẫu được tính từ 4 số, cho nên khi tính tổng bình 
phương, cần phải nhân cho 4: 

§Ssample = 4(153.00 - 154.25)?+ 4(154.75 - 154.25)?+ 4(154.50 - 154.25)? 
+ 4(154.75 - 154.25)? = 8.5 
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Vì có 4 mẫu và một thông số, cho nên bậc tự do là 4 - 1 = 3, và theo đó 
trung bình bình phương là: 8.5 / 3 = 2.8. 
Tổng bình phương do khác biệt giữa các phương pháp (SSmethod). 
Chú ý là vì trung bình mỗi phương pháp được tính từ 4 số, cho nên khi 
tính tổng bình phương, cần phải nhân cho 4: 
§Ssample =4(173.75 - 154.25)?+ 4(168.50 - 154.25)?+ 4(142.25 - 154.25)? 
+ 4(132.50 - 154.25)? = 4801.50 
Vì có 4 phương pháp và một thông số, cho nên bậc tự do là 4 - 1 = 3, 
và theo đó trung bình bình phương là: 4801.5/3 = 1600.5. 

+ _ Tổng bình phương phấn dư (residual sum of squares): 
§§residual = SStotal - SSmethod - S§sample - SSvariety 
= 4941.0 - 4801.5 - 8.5 - 123.5 = 7.5 


Những ước tính trên đây có thể trình bày trong một bảng phân tích 
phương sai như sau: 


























Giữa 4 mẫu ruộng 3 85 28 23 
Giữa 4 loại giống 3 | 1235 412 329 
Giữa 4 phương pháp. | 3 | _ 48015 1600.5 12804 
Phần dư (residual) | 6 | 75 

Tống số Ỉ 16 |_ 49410 








Qua phân tích thủ công và đơn giản trên, chúng ta thấy phương pháp 
canh tác và loại giống có ảnh hưởng lớn đến sản lượng. Để tính toán chính 
xác trị số p, chúng ta có thể sử dụng R để tiến hành phân tích phương sai cho. 
thí nghiệm hình vuông Latin. 


'Vấn để tổ chức số liệu sao cho thích hợp để R có thể tính toán là rất quan 
trọng. Nói một cách ngắn gọn, mỗi số liệu phải là một số đặc thù (unique). 
Trong thí nghiệm trên, chúng ta có 4 loại giống, 4 mẫu, cho nên tổng số là 16 
số liệu. Và, 16 số liệu này phải được định nghĩa cho từng loại giống, từng mẫu, 
'và quan trọng hơn là cho từng phương pháp canh tác. Chẳng hạn như, trong 
ví dụ bảng số liệu 10.6 trên, 175 là sản lượng của phương pháp canh tác 1 (tức 
Aa), loại giống 1, và mẫu 1; nhưng 173 (số ở góc phải cuối bảng) là sản lượng 
của phương pháp canh tác 1, nhưng từ loại giống 4, và mẫu 4; v.v. 
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'Trước hết, chúng ta nhập số liệu sản lượng, và gọi đó là y: 
> Yÿy <- c(175, 143, 128, 166, 
170, 178, 140, 131, 
135, 173, 169, 141, 
145, 136, 165, 173) 
'Kế đến, gọi var ¡ety là giống gồm 4 bậc (1, 2, 3, 4) cho từng số liệu trong, 
y (và cũng định nghĩa rằng var ‡ et y là một factor, tức biến thứ bậc): 
> variety <- c(1,2,3,4, 
1,2,3,4, 
1,2,3,4, 
1,2,3,4) 
> variety <- as.factor (variety) 
Gọi samp1e là mẫu gồm 4 bậc (1, 2, 3, 4) cho từng số liệu trong y (và 
cũng định nghĩa rằng samp 1e là một factor, tức biến thứ bậc): 
> sample <- €(1,1,1,1, 
2,2,2,2, 
3,3,3,3, 
4,4,4,4) 
> sample <- as.factor (sample) 


Nhập số liệu cho phương pháp, method, cũng gồm 4 bậc (1, 2, 3, 4) 
cho từng số liệu trong y (và cũng định nghĩa rằng metrhod là một 
factor, tức biến thứ bậc): 


> method <- c(1, 3, 4, 2, 
2, 1, 3, 4, 
4, 2, 1, 3, 
3, 4, 2, 1) 
> method <- as.factor (method) 
'Tổng hợp tất cả các số liệu trên vào một data frame và gọi là data: 


> data <- data.frame (sample, variety, method, y) 
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» _ Indata để kiểm tra xem số liệu có đúng và thích hợp hay chưa: 


> data 


sample variety method y 


1 1 1 1 175 
2 1 2 3 143 
E) 1 kì 4 128 
4 kí 4 2 166 
5 r2 1 2 170 
6 r3 r2 1 178 
7 2 3 3 140 
8 2 4 4 131 
9 3 1 4 135 
10 3 2 2 173 
11 3 3 1 169 
12 3 4 3 141 
13 4 1 3 145 
14 4 2 4 136 
15 4 3 2 165 
16 4 4 1 173 


Bây giờ chúng ta đã sẵn sàng dùng hàm 1m hay aov để phân tích số liệu. 
Ở đây chúng ta sẽ sử dụng hàm aov để tính các nguồn biến thiên trên (kết quả 


tính toán sẽ chứa trong đối tượng 1at in): 


> latin <- aov(y ~ sample + variety + method) 


> summary (latin) 

Df Sum Sq Mean §q F value 
sample 3 8.5 2.8 2.2667 0, 
variety 3 123.5 41.2 32.9333 0. 
method 3 4801.5 1600.5 1280.4000 8. 
Residuals 6 7.5 33 


8ignif. codes: 0 ***** 0,001 **** 0,0] **v 


Pr(>F 
1810039 
0004016 *** 
293e-09 +** 


0.05 *.° 0.19 Y1 
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"Tất cả các kết quả này (dĩ nhiên) là những kết quả mà chúng ta đã tóm tắt 
trong bảng phân tích phương sai một cách “thủ công” trên đây. Tuy nhiên, ở 
đây R cung cấp cho chúng ta trị số p (trong Pr > £) để có thể suy luận thống 
kê. Và, qua trị số p, chúng ta có thể phát biểu rằng mẫu ruộng không có ảnh 
hưởng đến sản lượng, nhưng loại giống và phương pháp canh tác thì có ảnh 
hưởng đến sản lượng. 

Để biết mức độ khác biệt giữa các phương pháp canh tác và giữa các loại 
giống, chúng ta dùng hàm TkeyiH1SD như sau: 


> TukeyHSD (lai 
$variety 
diff 
2-1 1.25 -1. 
3-1 -5.75 -B. 
4-1 -3.50 =6, 
3-2 ~7.00 -9. 
4-2 -4.15 ~1. 
4-3 2.25 -0. 


$method 
di££ 

2-1 -5.25 ~= 
3-1 -31,50 ~3. 
4~1 ~-41.25 -4 
3-2 =-26.25 =2 
4-2 -36.00 -3 
4-3 ~9.75 =1 


tin) 


1wr 

4867231 
4867231 
2367231 
7367231 
4867231 
4867231 


lwr 

1,986723 
4.236723 
3.986723 
8.986723 
8.736723 
2.486723 


upF 
3.9867231 
-3.0132769 
~0.7632769 
-4.2632769 
~2.0132769 
4.9867231 


tpr 

~2.513271 
~28.763217 
~38.513277 
~23.513277 
-33.263277 

~7.013277 


seooeosoeces 


P 
0 
0 
0. 
0 
0 
0 


ađ} 
4528549 


-0014152 
„0173206 
-0004803 
„0038827 
„1034761 


adj 
„0023016 
„0000001 
0000000 
„0000004 
„0000000 
„0000730 


So sánh giữa các loại giống cho thấy có sự khác biệt giữa giống 3 và 1, 4 


và 1, 3 và 2, 4 và 2. 


“Tất cả các so sánh giữa các phương pháp canh tác đều có ý nghĩa thống 
kê. Nhưng loại nào có sản lượng cao nhất? Để trả lời câu hỏi này, chúng ta sẽ 


sử dụng biểu đổ hộp: 


> boxplot(y ~ method, xlab="Methods (1=Aa, 2=Ab, 


3=Ba,4=Bb", ylab="Production") 
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180 


Production 
40 


130 














Biểu đồ so sánh sản lượng của bốn phương pháp canh tác. 


11.8 Phân tích phương sai cho thí nghiệm giao chéo 
(cross-over experiment) 

Ví dụ 6: Để thử nghiệm hiệu ứng của một thuốc mới đối với chứng ra mổ. 
hôi (thuốc này được bào chế để chữa trị bệnh tim, nhưng ra mồ hồi là một ảnh 
hưởng phụ), các nhà nghiên cứu tiến hành một nghiên cứu trên 16 bệnh nhân. 
Số bệnh nhân này được chia thành 2 nhóm (tạm gọi là nhóm AB và BA) một 
cách ngẫu nhiên. Mỗi nhóm gồm 8 bệnh nhân. Bệnh nhân được theo dõi hai 
lần: tháng thứ nhất và tháng thứ 2. Đối với bệnh nhân nhóm AB, tháng thứ 
nhất họ được điểu trị bằng thuốc, tháng thứ hai họ được cho sử dụng giả dược 
(placebo). Ngược lại, với bệnh nhân nhóm BA, tháng thứ nhất sử dụng giả 
dược, và tháng thứ hai được điều trị bằng thuốc. Tiêu chí để đánh giá là thời 
gian ra mồ hôi trên trán (tính từ lúc uống thuốc đến khi ra mồ hôi) sau khi sử 
dụng thuốc hay giả được. Kết quả nghiên cứu được trình bày trong bảng số 
liệu sau đây: 
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Bằng 7. Kết quả nghiên cứu hiệu ứng ra mồ hôi của thuốc điều trị bệnh tim 






























































NHÓM. |_ MÃ SỐ BỆNH NHÂN. THỜI GIAN (PHÚT) 
SỐ (ID) RA MỒ HÔI TRÊN TRẤN 
THÁNG 1 THÁNG2. 
AB A Placebo 

1 6 4 

3 8 7 

5 12 6 

6 7 8 

9 9 10 

10 6 4 

13 11 6 

15 8 8 

BA Placebo A 
2 5 7 

4 9 6 

7 7 1 

8 4 7 

„1 9 8 

12 5 4 

14 8 9 

16 D 13 




















Câu hỏi chính là có sự khác biệt về thời gian ra mồ hôi giữa hai nhóm điều 
trị bằng thuốc và giả được hay không? 

Để trả lời câu hỏi trên, chúng ta cẩn tiến hành phân tích phương sai. 
Nhưng vì cách thiết kế nghiên cứu khá đặc biệt (hai nhóm bệnh nhân với 
cách sắp xếp can thiệp theo hai thứ tự khác nhau), nên các phương pháp 
phân tích trên không thể áp dụng được. Có một phương pháp thông dụng 
là phân tích phương sai trong từng nhóm, rồi sau đó so sánh giữa hai nhóm. 
Một trong những vấn để chúng ta cẩn phải lưu ý là khả năng hiệu ứng kéo 
đài (còn gọi là carry-over efect), tức là trong nhóm AB, hiệu quả của tháng 
thứ 2 có thể chịu ảnh hưởng kéo đài từ tháng thứ nhất khi bệnh nhân được 
điểu trị bằng thuốc thật. Trước hết, chúng ta thử tóm lược dữ liệu bằng bảng 
sau đây: 
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Bảng 8. Tóm lược kết quả thí nghiệm hiệu ứng ra mồ hôi của thuốc điều trị bệnh tim 










































































cn|E=m=| vô NGhh | mang 
THẮNG 1 THÁNG2. 
AB ^ Placebo. 
1 6 4 5.0 
3 8 7 7.5 
s 12 6 9.0 
6 7 8 7.5 
9 9 10 95 
10 6 4 5.0 
13 T1 6 8.5 
15 8 8 8.0 
Trung bình 98.375 6.625 7.50 
BA Placebo ^ 
2 5s Lá 6.0 
4 9 6 785 
z Lá 11 9.0 
8 4 7 5.5 
T1 9 8 8.5 
12 5 4 45 
14 8 9 85 
16 9 13 11.0 
Trung bình 7.000 8.125 7.5625 
Trung bình cho 2 nhóm. 7.6875 7.3750 7.5312 

















Trung bình cho nhóm A = (8.375 + 8.125) / 2 = 8.25 
'Trung bình cho nhóm P (giả được) = (6.625 + 7.000) / 2 = 6.8125 


Qua bảng tóm lược trên, chúng ta có thể tính toán một số tổng bình phương: 


« _ Tổng bình phương do khác biệt giữa hai nhóm điểu trị bằng thuốc và 


giả dược: 


SSTreat = 16(8.25 - 7.5312)? + 16(8.8125 - 7.5312)?= 16.53 
« _ Tổng bình phương do khác biệt giữa tháng 1 và tháng 2: 


§SPeriod = 16(7.6875 ~ 7.5312)? + 16(7.3750 - 7.5312)?= 0.781 
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+ _ Tổng bình phương do khác biệt giữa hai nhóm AB và BA (thứ tự): 
§Sseq = 16(7.50 - 7.5312)? + 16(7.5625 ~ 7.5312)?= 0.031 


« _ Tổng bình phương do khác biệt giữa các bệnh nhân trong cùng nhóm 
AB hay BA: 


SSw = (5,0 ~ 750)2 + (7.5 ~ 7.50)2 + (9.0 ~ 7.50)2 +... 
+ (8.0 - 7.50)2 + (6.0 -7.5625)2 + (7.5 - 7.5625)2 
+ (9.0 - 7.5625)? +... + (11.0 - 7.5625)? = 103.44 
« _ Tổng bình phương cho toàn bộ mẫu: 


§Stotal = (6 - 7.5312)2 + (9 - 7.5312)2 +... + (13 - 7.5312)2 + (9 - 7.5312)? 
= 167.97 


+ _ Tổng bình phương còn lại (tức phấn dư): 
§Sres = 167.97 - 16.53 - 0.781 - 0.031 - 103.44 = 47.19 
Đến đây, chúng ta có thể lập bảng phân tích phương sai như sau: 
Bảng 9. Kết quả phân tích phương sai số liệu trong bảng 11.7 


























'BẬC TỰ DO TỔNG TRUNGBÌNH | KIẾM 
NGUỒN BIẾN THIÊN. (DEGREES OF BÌNHPHƯƠNG | BÌNHPHƯƠNG | ĐỊNH 
FREEDOM)  |(SUMOFSQUARES)| (MEANSQUARE) | F 
Giữa hai nhóm điều trị 1 16.53 1653 490 
Giữa hai tháng 1 | 0781 |_ 0z 023 
Giữa AB và BA [ 1 | 0031 |_ 0i 0004 
Trong mỗi nhóm. 14 |_ 1044 | 7439 
Phần dư (residual) 14 | 4719 | 337 
Tổng số. [ 3 |_ 19 | 








Qua phân tích trên, chúng ta thấy độ khác biệt giữa thuốc và giả dược 
lớn hơn là độ khác biệt giữa hai tháng hay hai nhóm AB và BA. Kiểm định F 
để thử nghiệm giả thiết thuốc và giả dược có hiệu quả như nhau là kiểm định 
F = 16.53 / 3.37 = 4.90 với bậc tự do 1 và 14. Dựa trên lí thuyết xác suất, trị số 
F với bậc tự do 1 và 14 là 4.60. Do đó, chúng ta có thể kết luận rằng thuốc này 
có hiệu ứng làm ra mồ hỏi lâu hơn nhóm giả dược. 


Tất cả các tính toán “thủ công” trên chỉ là minh họa cho cách phân tích 
phương sai trong thí nghiệm giao chéo. Trong thực tế, chúng ta có thể sử dụng 
R để tiến hành các tính toán đó như cách tính phương sai cho các thí nghiệm 
đơn giản. Vấn để chính là tổ chức số liệu cho phân tích. R (cũng như nhiều 
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phần mềm khác) yêu cầu người sử dụng phải nhập từng số liệu một, và mỗi số 
liệu phải gắn liền với một bệnh nhân, một nhóm điểu trị, một tháng (hay 
giai đoạn), và một nhóm thứ tự. Đó là một yêu cầu rất quan trọng, vì nếu tổ 
chức số liệu không đúng, kết quả phân tích có thể sai. 


Phần sau đây sẽ mô tả từng bước một: 
# bước 1: nhập dữ liệu và đặt tên object là y 
> y <- c(6,8,12,7,9,6,11,8, 

4,7,6,8,10,4,6,8, 

5,9,7,4,9,5,8,9, 

7,6,11,7,8,4,9,13) 


# bước 2: cứ mỗi số liệu trong bước 1, chỉ ra nhóm AB 
hay BA (mã số 1 và 2) 


> seq <- cC(1,1,1,1,1,1,1,1, 
1;121;1/1/1;1;1„ 
2/2/2,3,2/2/245, 
2,2,2,2,2,2,2,2) 
> seq <- as.factor (seq 


# bước 3: cứ mỗi số liệu trong bước 1, chỉ ra tháng 1 
hay tháng 2 


> period <- c(1,1,1,1,1,1,1,1, 
2,2,2,2,2,2,2, 
2,2,2,2 


2,2,2,2,2,2,2,2, 
1,1,1,1,1,1,1,1) 
> period <- as.factor (period 


# bước 4: cứ mỗi số liệu trong bước 1, chỉ ra nhóm A hay 
placebo bằng mã số 1 và 2: 


> treat <- c(1,1,1,1,1,1,1,1, 
2,2,2,2,2,2,2,2, 
1,1,1,1,1,1,1,1, 
2/2,2,2,2,2,2,2) 
> treat <- as.factor (treat) 
# bước 5: cứ mỗi số liệu trong bước 1, chỉ ra mã số cho 
từng bệnh nhân 
> iđ <- c(1,3,5,6,9,10,13,15, 
1,3,5,6,9,10,13,15, 
2,4,7,8,11,12,14,16, 
2,4,7,8,11,12,14,16) 


> id <- as.factor (1d) 
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# bước 6: lập thành một data £rame tên là data và in ra 
để kiểm tra một lần nữa. 
> data <- data.frame(seq, period, treat, id, y) 


> data 

seq period treat id  y 
Ÿÿằ3. 1% 1 1 6 
2 1 1 1 3.8 
3 1 1 4 5 12 
4.1 1 1 6 7 
5 1 1 1 3g..9 
Sỹ ti cv, 1 106 
71 1 1 13 11 
8 1 1 1 15 8 
9.1 2 2 1 4 
10 1 2 2 3 
11 1 2 2 56 
12 1 ;3 2 68 
13.1 2 2 910 
14 1 2 2 104 
15 1 2 2 13 6 
16 1 2 2 15 8 
11-2 l3 1 8. 
18 2 2 1 4 6 
19 2 2 1 7 11 
20 2 2 ‡ 87 
21 2 2 1 11 8 
22 2 2 vi 12 4 
23 2 2 1 14 9 
24 2 2 1 16 13 
95. 2.. /1 2 2. T5 
26 2 1 2 4 9 
¿7 2 1 2 7 7 
28 2 1 2 8.4 
29 2 1 2 11 9 
30 2 1 2 12 5 
3 2...3 2 14 8 
đố.) lẩu _ dt 2 16 9 


Bây giờ chúng ta đã sẵn sàng dùng hàm 1m của R để phân tích số liệu. Chú 
ý rằng cách dùng hàm 1m cho phân tích phương sai áp dụng cho thí nghiệm 
giao chéo hoàn toàn không khác gì với cách dùng cho các thí nghiệm khác. 
Khía cạnh khác biệt duy nhất là cách tổ chức dữ liệu cho phân tích như trình 
bày trên. 
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> xover <- lm(y ~ treat+seg+periodi 


> anova (xover) 


Analysis o£ Variance Table 


Response: y 
D£ Sum Sq Mean $q F value Pr(>F 


treat 1 16.531 16.531 4.9046 0.04388 * 
seq 1 0.031 0.031 0.0093 0.92466 
period 1 0.781 0.781 0.2318 0.63764 
id 14 103.438 7.388 2.1921 0.07711 


Residuals 14 47.187 3.371 


Signif. codes: 0 '****“ 0,001 **** 0.01 *** 0.05 *,° 0,1 *\ *\1 


Kết quả phân tích trên đây dĩ nhiên giống với cách tính thủ công mà 
chúng ta đã tiến hành ở phần trên. Nói tóm lại, mức độ khác biệt giữa thuốc 
và giả dược có ý nghĩa thống kê, với trị số F là 0.044. 


Chúng ta cũng có thể yêu cấu khoảng tin cậy 95% cho độ khác biệt giữa 
hai nhóm (bằng cách lệnh TuxeyHSD) như sau (chú ý là với TukeyHSD 
chúng ta chỉ sử dụng hàm aov chứ không phải 1m): 

> TukeyHSD (aov (y ~ treat+seqgtperiod+id) ) 

Tukey multiple comparisons of means 
95% family-wise confidence level 


Fit: aov(formula = y ~ treat + seq + period + id 


$treat 
dif£ 1wr upr p adj 
2-1 -1.4375 -2.829658 -0.04534186 0.0438783 


$seq 
di££ lựwr upE p adj 
2-1 0.0625 -1.329658 1.454658 0.924656 


$period 
điff lựr upr p adj 
2-1 -0.3125 -1.704658 1.079658 0.6376395 
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Chú ý kết quả: 
§treat 
dif£ lựr tpE p adj 
2-1 -1.4375 -2.829658 ~0.04534186 0.0438783 


cho biết tính trung bình thời gian ra mố hôi của nhóm được điểu trị cao 
hơn nhóm giả dược khoảng 1.44 phút, và khoảng tin cậy 95% là từ 0.05 phút 
đến 2.8 phút. Còn các kết quả so sánh giữa hai nhóm AB và BA (sea) hay giữa 
tháng 1 và tháng 2 (per iod) không có ý nghĩa thống kê. 


11.9 Phân tích phương sai cho thí nghiệm tái đo lường 
(repeated measure experiment) 


Ví dụ 7: Một nghiên cứu sơ khởi (pilot study) được tiến hành để đánh 
giá hiệu nghiệm của một vắc-xín mới chống bệnh thấp khớp. Nghiên cứu 
gồm 8 bệnh nhân, được chia thành 2 nhóm một cách ngẫu nhiên. Nhóm 
1 gồm 4 bệnh nhân được điểu trị bằng vắc-xin; nhóm 2 cũng gồm 4 bệnh. 
nhân nhưng được nhận giả được (placebo, hay đối chứng). Bệnh nhân được 
theo đõi trong 3 tháng, và cứ mỗi tháng, bệnh nhân được hỏi về tình trạng 
của bệnh ra sao. Tình trạng bệnh được “đo lường” bằng một chỉ số có giá trị 
từ 0 (không có hiệu nghiệm, bệnh vẫn như trước) đến 10 (có hiệu nghiệm 
tuyệt đối, hết bệnh). Kết quả nghiên cứu có thể tóm tắt trong bảng số liệu 















































sau đây: 

Vắc-xin 
1 6 3 0 
2 7 3 1 
3 4 1 2 
4 8 4 3 

Placebo 
s 6 s s 
6 9 4 6 
7 5s 3 4 
8 6 2 3 














Câu hỏi chính là có sự khác biệt nào giữa hai nhóm vắc-xin và giả dược 
hay không? 
hpshelnoiaen 


Để đơn giản hóa cách phân tích phương sai cho thí nghiệm tái đo lường, 
chúng ta sẽ tránh dùng kí hiệu toán, mà chỉ minh họa bằng vài phép tính “thủ 
công” để bạn đọc có thể theo dõi. Trước hết, chúng ta cẩn phải tóm lược số 
liệu bằng cách tính trung bình cho mỗi bệnh nhân, mỗi nhóm điểu trị, và mỗi 


tháng như sau: 





Bảng 11. Tóm lược số liệu nghiên cứu vắc-xin chống đau thấp khớp 













































































'NHÓM ĐIỀU TRỊ 
Vắc-xin 3.000 
3 3.667 
1 2333 
4 5.000. 
Trung bình. 6.25 27 3.500 
sD 171 1.24 
Placebo. 5 6 kì 5333 
6 kì 4 6.333 
7 s 3 4.000 
8 6 2 3.667 
Trung bình. 6.50 3.50 4.50 4.833 
sD 173 1.29 1.29 
Trung bình cho hai nhóm. 6.375 3.125 3.000 4.167 








Qua bảng trên, chúng ta có thể thấy rằng có 5 nguồn làm cho kết quả thí 


nghiệm khác nhau: 


a.. Giữa vắc-xin và giả được (có lẽ là nguồn mà chúng ta cẩn biết!); 

b. Giữa 3 tháng theo đõi; 

c. Giữa ba tháng trong mỗi nhóm điểu trị, mà giới thống kê thường để 
cập đến là “interaction” (tương tác), và trong trường hợp này, tương tác 
giữa nhóm điếu trị và thời gian; 

d.. Giữa các bệnh nhân trong cùng một nhóm điểu trị; 

e. Và sau cùng là phần dư, tức phần mà chúng ta không thể “giải thích” 
sau khi xem xét các nguồn (a) đến (đ) trên. 

« _ Trước hết là tổng bình phương giữa hai nhóm điểu trị (vắc-xin và giả 
được), tôi sẽ gọi là SStreaf: 

§Sreat = 12(3.500 - 4.167)? + 12(4.833 - 4.167)? = 10.667 
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« _ Kế đến là tổng bình phương giữa 3 tháng điểu trị, gọi là SS/ime: 
SStime = 8(6.375 ~ 4.167)2 + 8(3.125 - 4.167)2 + 8(3.000 - 4.167)2 
=58.583 

» - Nguồn thứ ba là tổng bình phương đo tương tác giữa điều trị và thời 
gian, gọi là SSint 
SSim' = 4(6.25 - 4.167)? + 4(2.75 - 4.167)? 

+ 4(1.50 ~ 4.167)? + 4(6.50 — 4.167)? 
+ 4(3.50 ~- 4.167)? + 4(4.50 ~ 4.167)? 
~ §§vắcxin ~§Stime 

= 77.833 - 10.667 - 58.583 = 8.583 

» - Nguồn thứ tư là tổng bình phương do tương tác giữa bệnh nhân trong 
mỗi nhóm điểu trị, gọi là SSpatient(treat): 
SSpatient(treat) = 3(3.000-3.350)? + 3(3.667-3.350)? 

+ 3(2.333-3.350)? +3(5.000-3.350)? 
+ 3(5.333-4.833)? + 3(6.333-4.833)? 
+ 3(4.000-4.833)? + 3(3.667-4.833)? 
=25.333 

5 Ngoài ra, tổng bình phương cho toàn mẫu là: 

§Sfotal = (6-4.167)? +(3-4.167)? +(0-4.167)? + .... +(3-4.167)? 
=115.333 

« _ Từ đó, chúng ta có thể ước tính tổng bình phương cho phần dư: 

§§E = SStotal - SSvắcxin - SStime - SSpatient(vắcxin) - §Svắcxin-time 
= 115.333 - 10.667 - 58.583 - 25.333 - 8.583 
=12.167 
Tất cả các tính toán thủ công trên, như bạn đọc có thể thấy, khá phức tạp, 


và rất để sai sót. Nhưng trong R, chúng ta có thể có kết quả nhanh chóng. Sau. 
đây, sẽ trình bày cách phân tích phương sai tái đo lường bằng R: 


Chúng ta có thể lập bảng phân tích phương sai như sau: 
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'NGUỒN BIẾNTHIÊN. 'BẬC TỰ DO. TỔNG. 'TRUNG BÌNH. KIỂM 
(DEGREES OF BÌNH PHƯƠNG. BÌNHPHƯƠNG | ĐỊNH 
FREEDOM)  |(SUMOFSQUARES)| (MEANSQUARE) | F 
Giữa vắcxin và placebo 1 10.667 10.667 2.53 
Bệnh nhân (nhóm điều trị) 6 25333 4222 - 
Giữa 3 tháng 2 58.583 29.292 28.89 
Thời gian và nhóm điểu trị 2 8583. 4.292 423 
Phần dư (residual) 12 12167 1/014 - 
Tổng số 23 115333 




















« __ Trước hết, chúng ta nhập đữ liệu cho từng bệnh nhân. Cũng như bất cứ 
phần mềm thống kê nào, mỗi giá trị phải được kèm theo những biến số 
đặc trưng như cho mỗi bệnh nhân, mỗi nhóm, và mỗi thời gian: 

y <- c(6,1,4,8, 
3,3,1,4, 
0,1,2,3, 
6,9,5,6, 
5,4,3.2, 
5,6,4,3) 


» _ Trong mỗi số liệu trên, cho R biết thuộc nhóm điều trị (mã số 1) hay 
giả dược (mã số 2). Cũng nên cho R biết treat là một biến thứ bậc 
(categorical variable) chứ không phải biến số (numerical variable): 
treat <- c(1,1,1,1, 
1/1/1,1, 
1,111, 
2,2,2,2, 
2,2,2,2, 
2,2,2,2) 

treat <- as.factor (treat) 


« _ Trong mỗi số liệu trên, cho R biết thuộc tháng nào (mã số 1, 2, 3), và 
định nghĩa time là một biến thứ bậc. 
tỉme <= c(1,1,1,1, 
2,2,2,2, 


time <- as.factor (time) 
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« _ Trong mỗi số liệu trên, cho R biết thuộc bệnh nhân nào (mã số 1, 2, 
3, ... 8), và định nghĩa ¡ d là một biến thứ 
3đ <- c(1/2/3,4, 1,2,3,4, 1,2,3,4, 5,6,T,8, 5,6,7T,8, 
5,6,/7,8) 





id <- as.factor (id) 


» Nhập tất cả biến vào một data frame và đặt tên là data. Kiểm tra một 
lần nữa xem số liệu đã đúng với ý định sắp xếp hay chưa. Xin nhắc lại, 
trước khi phân tích số liệu, việc quan trọng là phải kiểm tra lại cho thật 
kĩ số liệu để đảm bảo số liệu đã được tổ chức đúng và thích hợp. 
data <- data.frame(id, time, treat, y} 
data 

id time treat 

1 1 b5 
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Bây giờ, chúng ta đã sẵn sàng sử dụng R để phân tích. Hàm chính để phân 
tích phương sai là aov (analysis of variance). Trong hàm này, chú ý cách cung 
cấp thông số bằng cách dùng một hàm khác có tên là Error. Trong hàm 
Error, chúng ta cho R biết rằng mỗi bệnh nhân (: 3) “thuộc” vào một nhóm 
điểu trị và do đó thuộc vào biến time. Cách để cho R biết là: Error (id/ 
time) . Cụ thể hơn: 

> repeated <- aov(y ~ treat*time + Error(id/time)) 


Lệnh trên đây yêu cấu R phân tích theo mô hình y =  treat 
+ time + treat*time (chú ý treat*time tương đương với 
treat+time+treat*time), và trung bình bình phương phần dư phải 
được tách thành hai phần: một phần trong các bệnh nhân, và một phấn giữa 
các tháng điểu trị (viết tắt bằng kí hiệu ¡d/t ime). Tất cả kết quả cho vào đối 
tượng có tên là repeated. Chúng ta yêu cầu một bảng tóm lược kết quả từ 
đối tượng repeated: 


> summary (repeated) 


Error: id 

Df Sum §q Mean §q F value Pr(>F 
treat 1 10.6667 10.6667 2.5263 0.1631 
Residuals 6 25.3333 4.2222 


Error: id:time 

Df Sum §q Mean §q F value Pr(>F) 
time 2 58.583 29.292 28.8904 2.586e-05 *** 
treat:time 2 8.583 4.292 4.2329. 0.04064 * 
Residuals 12 12.167 1.014 


Signif. codes: 0 ****“ 0.001 ****° 0.01 *** 0.05 Y.° 0.1 *\ v1 


Kết quả phân tích trong phần đấu của bảng trên cho thấy sự khác biệt 
giữa nhóm điểu trị bằng thuốc và giả dược không có ý nghĩa thống kê 
(p = 0.16). Như vậy chúng ta có thể kết luận thuốc không có hiệu nghiệm 
giảm đau thấp khớp? 

Câu trả lời là “không? bởi vì phần thứ hai của bảng phân tích phương sai 
cho thấy mối tương tác giữa treat và time (trị số p = 0.041). Điểu này có 
nghĩa là độ khác biệt giữa thuốc và giả được tùy thuộc vào tháng điểu trị. Thật 
vậy, nếu chúng ta xem lại bảng 10.11 sẽ thấy trong tháng 1, trung bình của 
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nhóm vắc-xin và giả dược không mấy khác nhau (6.25 và 6.50), nhưng đến 
tháng thứ 2 và nhất là tháng thứ 3 thì độ khác biệt giữa hai nhóm rất cao (như 
tháng thứ ba: 1.50 cho vắc-xin và 4.50 cho nhóm giả dược). Như vậy, độ hiệu 
nghiệm trong nhóm được điểu trị tăng dẩn theo thời gian, còn trong nhóm. 
giả được thì hầu như không có khác biệt giữa 3 tháng. Tóm lại, qua thí nghiệm 
sơ khởi này chúng ta có thể nói vắc-xin có vẻ có hiệu quả giảm đau trong các 
bệnh nhân thấp khớp. 


Trên đây là vài cách sử dụng cho việc phân tích phương sai với các thí 
nghiệm thông dụng. Thiết kế và phân tích thí nghiệm (experimental design) là 
một lĩnh vực nghiên cứu tương đối chuyên sâu, những chỉ dẫn trên đây không 
thể mô tả tất cả các phép tính cũng như phương pháp cho tất cả thí nghiệm. 
'Tuy nhiên, trong thực tế, các phương pháp và thí nghiệm rất thường được áp 
dụng trong khoa học thực nghiệm. R có một package tên là n1me (non-linear 
mixed-effects) cũng có thể sử dụng cho các phân tích trên và các mô hình 
phức tạp hơn với đa biến và đa thứ bậc. Package này cũng có thể tải về máy. 
miễn phí tại website của R: http://cran.R-project.org. 
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_> À.. 
@® Phân tích hồi qui logistic 


\Š 









phương sai, chúng ta tìm mô hình và mối liên hệ giữa một biến phụ 

thuộc liên tục (continuous dependent variable) và một hay nhiều biến 
độc lập (independent variable) hoặc là liên tục hoặc là không liên tục. Nhưng 
trong nhiều trường hợp, biến phụ thuộc không phải là biến liên tục mà là biến 
mang tính đo lường nhị phân: có/không, mắc bệnh/không mắc bệnh, chết/ 
sống, xảy ra/không xảy ra, v.v... còn các biến độc lập có thể là liên tục hay 
không liên tục. Chúng ta cũng muốn tìm hiểu mối liên hệ giữa các biến độc 
lập và biến phụ thuộc. 


Ví dụ 1: Trong một nghiên cứu do tác giả tiến hành để tìm hiểu mối liên 
hệ giữa nguy cơ gây xương (fracture, viết tắt là £x) và mật độ xương cùng một 
số chỉ số sinh hóa khác, 139 bệnh nhân nam (hay nói đúng hơn là đối tượng 
nghiên cứu) tuổi từ 60 trở lên. Năm 1990, các số liệu sau đây được thu thập 
cho mỗi đối tượng: độ tuổi (age), tỉ trọng cơ thể (body mass index hay BMT), 
mật độ chất khoáng trong xương (bone mineral density hay BMP), chỉ số hủy. 
xương 1C7E, chỉ số tạo xương P1NP. Các đối tượng nghiên cứu được theo dõi 
trong vòng 15 năm. Trong thời gian theo dõi, các bệnh nhân bị gây xương hay 
không gãy xương được ghi nhân. Câu hỏi đặt ra ban đấu là có một mối liên 
hệ gì giữa BMD và nguy cơ gãy xương hay không. Số liệu của nghiên cứu này 
được trình bày trong phần cuối của chương này, và sẽ trình bày một phần dưới 
đây để bạn đọc nắm được vấn đề. 


TT các chương trước về phân tích hồi qui tuyến tính và phân tích 
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Bảng 1. Một phấn số liệu nghiên cửu về các yếu tố nguy cơ gây gãy xương 
| 


id £fx |age bmi bmd ictp pinp 

1 1 |79 24.1252 0.818 9.170 37.383 
2 1 |89 25.9909 0.871 7.561 24.685 
3 1 |70 25.3934 1.358 5.347 40.620 
4 1 |88 23.2254 0.714 7.354 56.782 
5 1 |85 24.6097 0.748 6.760 58.358 
6 0 |68 25.0762 0.935 4.939 67.123 
7 0 |70 19.8839 1.040 4.321 26.399 
8 0 |69 25.0593 1.002 4.212 47.515 
9 0 |74 25.6544 0.987 5.605 26.132 
10 0 79 19.9594 0.863 5.204 60.267 





137 0 64 38.0762 1.086 5.043 32.835 
138 3 80 23.3887 0.875 4.086 23.837 


139 0 67 25.9455 0.983 4.328 71.334 


Ở đây, vì biến phụ thuộc (gãy xương) không được đo lường theo tính liên 
tục (mà chỉ là có hay không), cho nên phương pháp phân tích hồi qui tuyến 
tính để phân tích mối liên hệ giữa biến phụ thuộc và biến độc lập. Một phương 
pháp phân tích được phát triển tương đối gần đây (vào thập niên 19705) có tên. 
là logistic regression analysis (hay phân tích hối qui logistic) có thể áp dụng 
cho trường hợp trên. 

“Trong nghiên cứu này, sau 15 năm theo đõi, có 38 bệnh nhân bị gãy xương. 
Tính theo phần trăm, tỉ lệ gãy xương là 38 / 139 = 0.273 (hay 27.3%). 


12.1 Mô hình hồi qui logistic 


Cho một tấn số biến cố x ghi nhận từ m đối tượng, chúng ta có thể tính 
xác suất của biến cố đó là: 
p= 


xỊx 


p có thể xem là một chỉ số đo lường nguy cơ của một biến cố. Một cách 
thể hiện nguy cơ khác là odảs, tạm dịch là khả năng. Khả năng của một biến 
cố được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trên xác suất 
biến cố không xảy ra: 


oddev=—P_— ũ 
I~-p 
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Hàm logit của odds được định nghĩa như sau: 


loga(z)= [22 ) Bì 


Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục và theo đạng 


như sau: 
« j 

















00 02 04 06 08 1Ó 
p 


Biểu đồ 1. Mối liên hệ giữa logit(p) và p, cho 1<p<0. 

Chú ý: biểu đồ trên được vẽ bằng các lệnh sau đây: 
P <- seq(0, 1, length=100) 
P <- P[2: (1ength (p) =1) ] 
logit <- function(t 

( 

log(t / (1-t)) 

} 





plot (1ogit(p) ~ p„ type="1") 


Cho một biến độc lập x (x có thể là liên tục hay không liên tục), mô hình 
hồi qui logistic phát biểu rằng: 


logit(p) = œ+ổx I3) 
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“Tương tự như mô hình hồi qui tuyến tính, œ và B là hai thông số tuyến tính 
cần phải ước tính từ dữ liệu nghiên cứu. Nhưng ý nghĩa của thông số này, đặc 
biệt là thông số B, rất khác với ý nghĩa mà ta đã quen với mô hình hồi qui tuyến. 
tính. Để hiểu ý nghĩa của hai thông số này, chúng ta sẽ quay lại với ví dụ 1. 

Ví dụ 1 (tiếp theo): Vấn để mà chúng ta muốn biết là mối liên hệ giữa mật 
độ xương bmd và nguy cơ gãy xương (£x). Để tiện cho việc minh họa, gọi bmd 
là x, vấn để mà chúng ta cẩn biết có thể viết bằng ngôn ngữ mô hình như sau 


logit(p)= s5, } +Øx [4] 


Nói cách khác: 





04Äe(p)=TE=enm 


Mô hình hồi qui logistic vừa trình bày trên phát biểu rằng mối liên hệ 
giữa xác suất gãy xương (p) và mật độ xương bmd là một mối liên hệ theo 
hình chữ §. Mô hình trên còn cho thấy xác suất gãy xương p tùy thuộc vào giá 
trị của x. Do đó, mô hình trên có thể viết một cách chính xác hơn rằng khả 
năng gãy xương với điểu kiện x là: 


ødds(p | x)= e°°2* 


Khi x = x„ khả năng gãy xương là: ød4s(p| x = xụ)= e“'#* 
Khi x = x,+ l (tức tăng 1 đơn vị từ x,), khả năng gãy xương là: 


odás(p|x=x, +1) =e”"s9) 
Và, tỉ số của hai xác suất gãy xương: 


oddg(p|x=xạ+1) _ e"*9 


odäs(p|x= x; Gi BỊ] 





"Trong dịch tễ học, e" được gọi là odđs ratio, tạm dịch là tỉ số khả năng hay. 
tỉ số khả dĩ. Nói cách khác, hệ số B trong mô hình hồi qui up chính là tỉ 
số khả di. 
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Phương pháp để ước tính thông số trong mô hình [3] khá phúc tạp (dùng 
phương pháp maximum likelihood - tức phương pháp Hợp lí cực đại) và không 
nằm trong phạm vi của cuốn sách này, nên sẽ không trình bày ở đây (bạn đọc 
có thể tham khảo sách giáo khoa để biết thêm, nếu cần thiết). Tuy nhiên, có 
lẽ cấn để cập một cách ngắn gon là phương pháp hợp lí cực đại cung cấp cho. 
chúng ta một hệ phương trình như sau: 


Š» -š(+e®"Ï 


mỊ m 


Suy, =Š»I*e lối) 


] “ 
Trong đó, y, là biến phụ thuộc (gãy xương với giá trị 0 hay 1), và x, là biến 
độc lập (mật đô xương), và n là số mẫu. Để tìm ước số ê và , một trong những, 
phép tính hay sử dụng là iterative weighted least square hay Newton-Raphson. 
R sử dụng phép tính Newton-Raphson để tìm hai ước số đó. 
Sau khi đã có ước số # và chúng ta có thể ước tính xác suất p cho bất 
cứ giá trị nào của x như sau (sau vài thao tác đại số): 











Chú ý chúng ta dùng dấu mũ Ø để chỉ số ước tính (predicted value), chứ 
không phải p là xác suất quan sát. Nếu mô hình mô tả dữ liệu tốt và đẩy đủ, 
độ khác biệt giữa p và ð nhỏ; nếu mô hình không thích hợp hay không tốt, 
độ khác biệt đó có thể sẽ cao. Độ khác biệt giữa p và ð được gọi là deviance. 
Phương pháp tính deviance khá phức tạp, nhưng đó không phải là chủ để ở 
đây, cho nên chúng ta chỉ nói qua khái niệm mà thôi. Khi chúng ta có nhiều mô 
hình để mô phỏng một hay nhiều mối liên hệ, deviance có thể được sử dụng 
để đánh giá sự thích hợp của một mô hình, hay để chọn một mô hình “tối ưu”. 


12.2 Phân tích hồi qui logistic bằng R 


Ví dụ 1 (tiếp theo): Bây giờ, chúng ta quay lại với ví dụ 1, dùng số liệu 
trong Bảng 12.1 để ước tính hai thông số œ và bằng R. Trước hết chúng ta 
phải nhập toàn bộ số liệu vào một data frame, và cho một cái tên, chẳng hạn 
như fracture. Trong trường hợp của ví dụ này, đữ liệu được chứa trong 
đdirectory c:\works\stats dưới tên £zacture.txt, do đó, các lệnh sau đây 
cần thiết để nhập số liệu: 
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# báo cho R biết nơi chứa số liệu 
> setwd("c:/works/stats") 


# nhập số liệu và cho vào một data frame tên fracture 

> fracture <- read.table("fracture.txt", header=TRUE, 

na.string=". ") 

# kiểm tra xem có bao nhiêu biển trong dũ liệu fracture 

> names (fracture) 

[1] "id" "fx" “age" "bmi" "bmd" "ictp" "pinp" 

# Chọn những bệnh nhân có đây đủ số liệu cho phân tích 

> fulldata <- na.omit (fracture) 

> attach (fulldata) 

Hai biến mà chúng ta quan tâm trong ví dụ này là: £x (gãy xương) và bmd' 
(mật độ xương). Chúng ta kiểm tra xem có bao nhiêu bệnh nhân gãy xương: 

> table (£x) 


£tx 
0 1 


101 38 
Kế đến, xem mật độ xương trong nhóm gãy xương và không gãy xương. 
Tả SaO: 
> tapply(bmd, £fx, mean) 
0 1 





0.9444851 0.9016667 


> boxplot (bmd ~ fx, xlab="Fracture: 1=yes, 0=no)", ylab="BMD") 
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Fracture: 1=yes,0=no) 
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Kết quả trên cho thấy, bmdi trong nhóm bệnh nhân bị gãy xương thấp hơn 
so với nhóm không bị gãy xương (0.90 và 0.94). Và, kiểm định t sau đây cho 
thấy mức độ khác biệt này không có ý nghĩa thống kê (p = 0.15). 

> t.,test (bmd~£x) 


Welch Two Sample t-test 


đata: bmđ by fx 
t= 1.4572, d£ = 53.952, p-value = 0.1508 


alternative hypothesis: true difference in means is not 
equal to 0 


95 percent confidence interval: 
~0.01609226 0.10172922 
sample estimates: 
mean in group 0 mean in group 1 
0.9444851 0.9016667 


Để ước tính thông số trong mô hình [4], hàm số g 1m (viết tắt từ generalized 
linear model) trong R có thể áp dụng, với "cú pháp” như sau: 


> logistic <- glm(fx ~ bmd, family="binomial") 
> summary (1ogistic) 


Call: 
glm(formula = fx ~ bmd, family = "binomial") 


Deviance Residuals: 
Min 10 Median 3Q Max 
~1.0287 -0.8242 -0.7020 1.3780 2.0709 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 1.063 1.342 0.792 0.428 
bmd -2.270 1.455 -1.560 0.119 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 157.81 on 136 degrees of freedom 


Residual deviance: 155.27 on 135 degrees of freedom 
AIC: 159.27 


Number of Fisher Scoring iterations: 4 
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Chúng ta sẽ lần lượt xem qua các kết quả trên: 

a. Tronglệnhlogistic <- g1m(fx~bmd, fami1y= "binomial") 
chúng ta yêu cầu R phân tích theo mô hình £x là một hàm số với bmd 
như mô hình [4]. Trong g1m có nhiếu luật phân phối, mà trong đó 
phân phối nhị phân (binomial) là một luật phân phối chuẩn cho hồi 
qui logistic. Do đó, fami 1y= "binomi a1 " cần thiết cho R. 

b.. Deviance: phần thứ nhất của kết quả cho biết qua về deviance: 
Deviance Residuals: 

Min 10 Median 3Q Max 
~1.0287 -0.8242 -0.7020 1.3780 2.0709 
Deviance như giải thích trên phản ánh độ khác biệt về giá trị quan sát 
và ước tính của logit(p) (hay giữa mö hình và dữ liệu, cũng tương tự 
như mean sạuare residual trong phân tích hồi qui tuyến tính vậy). Đối 
với một mô hình đơn lẻ như ví dụ này thì giá trị của deviance không 
có ý nghĩa gì nhiều. 

a. Phần kế tiếp cung cấp ước số của ở (mà R đặt tên là intercept) và 
Â (bmd) và sai số chuẩn (standard error). 

Fiei nh 








Estimate 5td. Error z value Er(SIzl}] 
(Intercept) 1.063 1.342 0.792 0.428 
bmd ~2.270 1.455 -1.560 0.119 


Qua kết quả này, chúng ta có đ= 1.063 và  = -2.27. Ước số là số 
âm cho thấy mối liên hệ giữa nguy cơ gãy xương và bmd là mối liên 
hệ nghịch đảo: xác suất gãy xương tăng khi giá trị của bmd giảm. Tuy. 
nhiên, kiếm định z (tính bằng cách lấy ước số chia cho sai số chuẩn) 
cho chúng ta thấy ảnh hưởng của bmd không có ý nghĩa thống kê, vì 
trị số P = 0.119. 

Nhớ rằng tỉ số khả di (odds ratio hay viết tắt là OR) chính là 
e?? =0.1033. Nói cách khác, khi bmd tăng 1 g/cm? (đơn vị đo lường 
của bmd là g/cm)) thì tỉ số OR giảm 0.9067 hay 90.67%. Nhưng tăng 
1 g/cm? là mật độ rất cao trong xương và không thực tế. Cho nên một 
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cách tính khác là tính trên độ lệch chuẩn (standard deviation) của 
bmd. Chúng ta sẽ tìm hiểu độ lệch chuẩn của bmd: 


> sd(bmd) 
(1] 0.1406543 


Do đó, OR sẽ tính trên mỗi 0.14 g/cm?. Và OR cho mỗi độ lệch chuẩn, 
do đó, là: 


127791 = 0.7267 


'Túc là, khi bmd tăng một độ lệch chuẩn thì tỉ số khả dĩ gãy xương 
giảm khoảng 28%. Cũng có thể nói cách khác, là khi bmd giảm một 
độ lệch chuẩn thì tỉ số khả di tăng °?79!4 = 1.376 hay khoảng 38%. 
Một cách khác để biết ảnh hưởng của bmd là ước tính xác suất gãy. 
xương là qua phương trình: 


1063-23 
e 227(km4) 


ô=— TH nnET 
re.) 








Theo đó, khi bmd = 1.00, p = 0.23. Khi bmd = 0.86 (túc giảm 1 độ lệch. 
chuẩn), p = 0.291. Tức là, nếu BMD giảm 1 độ lệch chuẩn thì xác suất 
gãy xương tăng 0.291/0.23 = 1.265 hay 26.5%. 


.. Phấn cuối của kết quả cung cấp deviance cho hai mô hình: mô hình 
không có biến độc lập (null  devianece), và mô hình với biến độc 
lập, tức là bmd trong ví đụ (residual devianece). 

Null deviance: 157.81 on 136 degrees of freedom 
Residual deviance: 155.27 on 135 degrees of freedom 
AIC: 159.27 

Qua hai số này, chúng ta thấy bmd ảnh hưởng rất thấp đến việc tiên 
đoán gãy xương, chỉ làm giảm deviance từ 157.8 xuống còn 155.27, và 
mức độ giảm này không có ý nghĩa thống kê. 

Ngoài ra, R còn cung cấp giá trị của AIC (Akaike Information Criterion) 
được tính từ deviance và bậc tự do. Chúng ta sẽ quay lại ý nghĩa của 
AIC trong phần sắp đến khi so sánh các mỏ hình. 
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12.3 Ước tính xác suất bằng R 


“Trong phân tích trên, chúng ta cho các kết quả vào đối tượng 1ogistiec, 
Trong đối tượng này có nhiếu thông tin có ích, nhưng nếu muốn xem các 
thông tin này chúng ta phải dùng đến các lệnh như summary chẳng hạn. 
Trong phần này, chúng ta sẽ xem qua vài hàm trong R để lấy các thông tin liên 
quan đến việc tiên đoán xác suất. 


+ prediet dùng để liệt kê các giá trị ước tính (predicted values) của mô 
hình c5, } œ+/x cho từng bệnh nhân. 
-p 


> predict (1ogistic) 


1 2 3 4 5 6 
2.37157 1.08569 -2.14111 1.49282 0.96537 -0.94125 
7 8 9 10 11 12 


~1.73368 -1.67564 -0.66528 ~0.50704 ~0.94185 -0.64874 


Các số trên là log(p / (1 - p)), tức log odds, không có ý nghĩa thực tế bao 
nhiêu. Chúng ta muốn biết giá trị tiên đoán xác suất p tính từ phương trình 
` e' 063-227(hm) 


"P= mm) 


= . Để có giá trị này cho từng bệnh nhân, chúng ta cho thông 
l+e 


số type= "response " vào hàm predi ct như sau: 


> predict(logistic, type="response") 


1 2 3 4 L) 6 7 
0.915 0.747 0.105 0.816 0.724 0.281 0.150 
8 9 10 11 12 13 14 


0.158 0.339. 0.376 0.281 0.343 0.443 0.238 


Trong kết quả trên (chỉ in một phần) ước tính xác suất gãy xương cho 
bệnh nhân 1 là 0.915, cho bệnh nhân 2 là 0.747, v.v... 
« _ Chúng ta có thểxem xét các giá trị tiên đoán này với độ bmd bằng cách 
dùng hàm p1et thông thường: 
> plot(bmd, fitted(gìm(fx ~ bmd, amily="binomia1"))) 
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06 08 10 12 (trục tung) và độ bmd (trục hoành) 

bmd qua mô hình hồi qui logistic. 


Biểu đồ trên có thể cải tiến bằng cách cho các khoảng cách giá trị bmd gần 
nhau hơn (như 0.50, 0.55, 0.60, ..., 1.20 chẳng hạn), và dùng đường biểu diễn 
thay vì dùng dấu chấm. Các lệnh sau đây sẽ cải tiến biểu đồ. 


> logistic <- glm(fx ~ bmd, £family="binomial") 


#cho fnbmd từ > 0.50,0.55,0.6,...,1.2 
> £fnbmd <- seg(0.5, 1.2, 0.05) 


#cho vào một dataframe mới 
> new.data <- đata.frame (bmd = fnbmd) 

> predicted <- predict(logistic, new.data, type="response") 
> plot (predicted ~ fnbmd, type="1") 
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12.4 Phân tích hồi qui logistic từ số liệu giản lược bằng R 


Trong quá trình phân tích số liệu vừa trình bày trên đây, chúng ta có số 
liệu cho từng bệnh nhân và các biến độc lập đều là biến liên tục. Nhưng trong 
nhiều trường hợp biến độc lập là bậc thứ (và bởi vì biến phụ thuộc chỉ có hai 
giá trị 0 và 1) cho nên trên lí thuyết chúng ta có thể tóm lược dữ liệu bằng các 
bảng tần số (frequency table). 

Ví dụ 2: Trong một nghiên cứu về ảnh hưởng của thói quen hút thuốc lá, 
tình trạng béo phì, thở ngáy (trong khi ngủ) đến nguy cơ bệnh cao huyết áp, các 
nhà nghiên cứu tóm lược số liệu như sau (số liệu trích từ Altman, trang 353): 





smeking obesity snoring ntotal nhyper 


0 0 0 60 5 
1 0 0 17 2 
0 1 0 8 1 
1 1 0 2 0 
0 0 1 187 35 
1 0 1 85 13 
0 1 1 51 15 
1 1 1 23 8 
Tổng số 433 719 





“Trong nghiên cứu có 433 bệnh nhân, và trong số này 79 người (hay 18%) bị 
bệnh cao huyết áp. Tuy nhiên, tỉ lệ này dao động khá cao theo từng nhóm bệnh 
nhân. Chẳng hạn như trong nhóm không hút thuốc lá (smoking=0), không 
béo phì (oebesi cy=0) và không ngáy (snoring=0), tỉ lệ cao huyết áp là 8.3% 
(5/60). Trong khi đó nhóm với 3 yếu tố nguy cơ trên (smoking=1,ebesity=1, 
snoring=1) thì có hơn 1 phần 3 hay 35% (8/23) bị bệnh cao huyết áp. 


Để phân tích mối liên hệ giữa 3 yếu tố nguy cơ đó và bệnh cao huyết áp, 
trước hết cần phải cho số liệu vào R theo đúng như bảng số liệu trên. 


5 
> 
> 
> 
> 
> 


> 


noyes <- c("no", "yes") #định nghĩa biến noyes có 2 giá trị 
smoking <- g1(2,1,8, noyes) #biễn smoking 

obesity <- g1(2,2,8, noyes) #biến obesity 

snoring <- gì(2,4,8, noyes) #biên snoring 

ntotal <- c(60, 17, 8, 2, 187, 85, 51, 23) 

nhyper <- c(5, 2, 1, 0, 35, 13, 15, 8) 

data <- data.£frame (smoking, obesity, snoring, ntotal, nhyper) 
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> data 
smoking obesity snoring ntotal nhyper 
6 5 


1 no no no 

2 yes no no 117 2 
3 no yes no 8 1 
4 yes  yes no 2 g 
5 nơ no yes 187 35 
6 yes no yes 85 13 
1 no yes  yes 51 15 
8 yes yes yes 23 8 


Bây giờ chúng ta có thể sử dụng hàm g1m để phân tích số liệu. Trước hết, 
chúng ta phải tạo thêm một biến số propor+ ion như sau: 


> proportion <- nhyper/ntotal 
> logistic <- gìm(proportion ~ smoking+obesity+snoring, 


family="binomial", weight=ntotal) 


Chú ý trong hàm gÌm trên, chúng ta mô phỏng pzoportion như là 
một hàm số của smoking, ebesity và snoring, vẫn với phân phối nhị 
phân (binomi a1), nhưng có thêm một thông số wei ght=ntota1. Thông 
Số we i ght yêu cẩu R sử dụng ncota1 là một số tóm lược (thay vì một bệnh. 
nhân). Bây giờ, chúng ta có thể xem qua kết quả phân tích: 


> summary (1ogistic) 


Call: 
glim(formula “= proportion ~ smoking + obesity + snoring, 


family = “binomial", weights = ntotal) 
Deviance Residuals: 


3 4 5 6 7 8 
~0.04344 0.54145 -0.25476 -0.80051 0.19759 ~0.46602 
-0.21262 0.56231 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) -2.37766 0.38018 -6.254 4e-10 *** 
smokingyes -0.06?77 0.27812 -0.244 0.8075 
obesityyes 0.69531 0.28509 2.439 0.0147 * 
snoringyes 0.87194 0.39757 2.193 0.0283 * 


Signif. codes: 0 ****' 0.001 **“** 0.01 *** 0.05 *.* 0.1 * 91 

(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 14.1259 on 7 degrees of freedom 

Residual deviance: 1.6184 on 4 đegrees of freedom 


AIC: 34.537 


Number o£ Fisher Scoring iterations: 4 
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Kết quả trên cho thấy biến smoking không có ý nghĩa thống kê; cho 
nên có lẽ chúng ta nên bỏ biến này ra ngoài mô hình và có một mô hình đơn 
giản hơn: 


> logistic <- gìm(proportion ~ obesity+snoring, 
family="binomial”, weight=ntotal) 


> summary (logistic) 


Call: 
gim(formula = proportion ~ obesity + snoring 
family = "binomial", weights = ntotal) 


Deviance Residuals: 

ñ 2 3 4 5 

-0.01247 0.47756 -0.24050 -0.82050 0.30794 -0.62742 
T 8 

=0.14449 0.45770 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) -2.3921 0.3757 -6.366 1.94e-10 *** 
obesityyes 0.6954 0.2851 2.440 0.0147 * 
snoringyes 0.8655 0.3967 2.182 0.0291 * 


Signif. codes: 0 ****“ 0.001 **** 0.01 *** 0.05 *,* 0,1 \ v1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 14.1259 on 7 degrees of freedom 


Residual deviance: 1.6781 on 5 degrees of freedom 
AIC: 32.597 


Number of Fisher Scoring iterations: 4 


Phân tích phương sai trên deviance sau đây cũng khẳng định ebesity' 
và snoring là hai biến có ảnh hưởng đến cao huyết áp: 


> anova(logistic, test="Chisq") 
Analysis of Deviance Table 


Model: binomial, link: logit 
Response: proportion 
Terms added sequentially (first to last 


Df Deviance Resid. Df Resid. Dev P(>|Chỉ|) 


NULL 7 14.1259 
obesity l1 6.8260 6 7.2999 0.0090 
snoring l1 5.6218 H 1.6781 0.0177 
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12.5 Phân tích hồi qui logistic đa biến và chọn mô hình 

Một trong những vấn để khó khăn và có khi khá nan giải trong việc phân 
tích hồi qui logistic đa biến là chọn một mô hình để có thể mô tả đẩy đủ dữ 
liệu. Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập x,, x, và x,„ 
chúng ta có thể có những mô hình sau đây để tiên đoán y: y = ffx,), y = f(x,), 
y= ƒ(x), y= ftxụ x)), y = fX, X)), y = fx„ x,), và y = fx, xạ x,), trong đó ƒlà 
hàm số. Nói chung với k biến độc lập x,„ x,„ x„..., x;„ chúng ta có rất nhiều mô 
hình (2*) để tiên đoán y. Trong điều kiện có nhiều mô hình khả di như thế, vấn 
để đặt ra là mô hình nào được xem là tối ưu? 


Câu hỏi trên đặt ra một câu hỏi cơ bản khác: thế nào là “tối ưu”? Nói một 

cách ngắn gọn một mô hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây: 
«Ồ Đơngiản 
«Ò Đẩyđủ 
« Có ýnghĩa thực tế 

Tiêu chuẩn đơn giản đòi hỏi mô hình có ít biến số độc lập, vì nếu quá 
nhiều biến số thì vấn để diễn dịch sẽ trở nên khó khăn, và có khi thiếu thực tế. 
Nói một cách ví von, nếu chúng ta bỏ ra 50.000 đồng để mua 500 trang sách 
tốt hơn là bỏ ra 60.000 ngàn để mua cùng số trang sách. Tương tự, một mô 
hình với 3 biến độc lập mà có khả năng mô tả dữ liệu tương đương với mô. 
hình với 5 biến độc lập, thì mô hình đấu được chọn. Một mô hình đơn giản là 
một mô hình... tiết kiệm! (Tiếng Anh gọi là parsimonious model). 

“Tiêu chuẩn đấy đủ ở đây có nghĩa là mô hình đó phải mô tả dữ liệu một 
cách thỏa đáng, tức phải tiền đoán gần (hay càng gần càng tốt) với giá trị thực 
tế quan sát của biến phụ thuộc y. Nếu giá trị quan sát của y là 10, và nếu có một 
mô hình tiên đoán là 9 và một mô hình tiên đoán là 6 thì mô hình đầu phải 
được xem là đầy đủ hơn. 


"Tiêu chuẩn "có ý nghĩa thực tế? như cách gọi, có nghĩa là mô hình đó phải 
được yểm trợ bằng lí thuyết hay có ý nghĩa sinh học (nếu là nghiên cứu sinh 
học), ý nghĩa lâm sàng (nếu là nghiên cứu lâm sàng), v.v... Có thể số điện thoại 
một cách nào đó có liên quan đến tỉ lệ gãy xương, nhưng tất nhiên một mô 
hình như thế hoàn toàn vô nghĩa. Đây là một tiêu chuẩn quan trọng, bởi vì 
nếu một phân tích thống kê dẫn đến một mô hình dù rất có ý nghĩa toán học 
mà không có ý nghĩa thực tế thì mô hình đó cũng chỉ là một trò chơi con số, 
không có giá trị khoa học thật sự. 
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Tiêu chuẩn thứ ba (có ý nghĩa thực tế) thuộc về lĩnh vực lí thuyết, và 
chúng ta sẽ không bàn ở đây. Chúng ta sẽ bàn qua tiêu chuẩn đơn giản và đấy 
đủ. Một thước đo quan trọng và có ích để chúng ta quyết định một mô hình 
đơn giản và đấy đủ là Akaike Information Criterion (AIC) mà chúng ta đã gặp 
trong phần đầu của chương này. Để hiểu AIC, chúng ta quay lại với ví dụ 1. 

Xin nhắc lại trong ví dụ 1, chúng ta muốn tiên đoán gãy xương (biến £x) từ 
các biến độc lập sau đây: độ tuổi (age), tỉ số cơ thể (bm¡), mật độ chất khoáng 
trong xương (bmd), và hai chỉ số hủy xương (i ctp) và tạo xương (pi np). 

(a) Chúng ta thử mô hình £x là hàm số của độ tuổi: 


> attach (fulldata) 
> sumnary(gÌm(fx ~ age, family="binomial", data=fulìdata)) 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) -8.06447 2.72559 -2.959 0.00309 ** 
age 0.09806 0.03766 2.604 0.00922 ** 


Signif. codes: 0 ****" 0.001 **** 0.01 *** 0.05 *,* 0.1991 
(Dispersion parameter for binomial family taken to be 1) 


Null devianee: 157.81 on 136 đegrees of freedom 
Residual deviance: 150.74 on 135 degrees of freedom 
AIC: 154.74 
Chúng ta để ý thấy residual deviance = 150.74, và AIC = 154.74. Thật ra, 
AIC được ước tính từ công thức: 


AIC = Residual Deviance + 2(số thông số) 


Trong mô hình trên, chúng ta có 2 thông số (intercept và age), cho 
nên AIC = 150.74 + 4 = 154.74. 


(b) Mô hình thứ hai mà chúng ta muốn so sánh là £x là hàm số của i ctp: 


> summary(gl1m(fx ~ ictp, family="binomial", data=fulldata)) 


Coefficients: 

Estimate Std, Error z value Pr(>|zl) 
(Intercept) -3.9206 0.7726 -5.074 3.89e-07 *** 
ictp 0.6066 0.1527 3.973 7.11le-05 *** 
Signif. codes: 0 ***** 0,001 **** 0.01 ***° 0,05 *.” 
n3». 1 
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(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 157.81 on 136 degrees o£ £freedom 

Residual đeviance: 139.15 on 135 degrees of freedom 

AIC: 143.15 

Cũng với hai thông số, nhưng mô hình này có giá trị residual deviance 
(139.15) nhỏ hơn mô hình với độ tuổi (150.74), và do đó AIC cũng thấp hơn 
(143.15 so với 154.74). Kết quả này cho thấy mô hình với ¡ctp mô tả £x đẩy 
đủ hơn là mô hình với độ tuổi. So sánh này cho thấy trong hai mô hình này, 
chúng ta sẽ chọn mô hình với i ccp. 

(c) Bây giờ chúng ta thử xem mô hình với i ccp và age. 


> summary(gìm(fx ~ ictp + age, family="binomial", 
data=fu11data) ) 


(Intercept) -8.25707 2.91403 -2.834 0.004603 ** 
ictp 0.55461 0.15665 3.540 0.000399 *** 
age 0.06398 0.04067 1.573 0.115701 


Signif. codes: 0 \**** 0,001 ***“ 0.01 *** 0.05 *.° 0.1 *\ v1 
(Dispersion parameter for binemial family taken to be 1) 


Null deviance: 157.81 on 136 degrees of freedom 
Residual đeviance: 136.61 on 134 đegrees of freedom 
AIC: 142.61 


Mô hình này với 3 thông số (intercepr, age và ictp), nhưng trị số 
AIC chỉ giảm xuống 142.61 (so với mô hình với ¡ =tp là 143.15), một độ giảm 
rất khiêm tốn, trong khi chúng ta phải “tiêu” thêm một thông số! Chúng ta có 
thể kết luận rằng age không cần thiết trong mô hình này. Thật vậy, trị số p cho 
age là 0.115, tức không có ý nghĩa thống kê. 

Qua ba trường hợp trên, chúng ta có thể rút ra một nhận xét chung: một 
mô hình đơn giản và đấy đủ phải là mô hình có trị số AIC càng thấp càng tốt 
và các biến độc lập phải có ý nghĩa thống kê. Thành ra, vấn để đi tìm một mô 
hình đơn giản và đấy đủ là thật sự đi tìm một (hay nhiều) mô hình với trị số 
AIC thấp nhất hay gần thấp nhất. 

Tất nhiên, chúng ta có thể xem xét nhiều mô hình khác bằng cách thay 
thế hay tổng hợp các biến số độc lập với nhau. Nhưng một việc làm như thế 
rất phức tạp, đòi hỏi nhiều thời gian và có khi rườm rà. R có một hàm gọi là 
step có thể giúp chúng ta đi tìm một mô hình đơn giản và đầy đủ. Trong ví 
dụ trên, cách sử dụng hàm step sẽ được viết như sau: 


> temp <- glm(fx ~ ., £family="binomial", đata=£fulidata) 
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Trong lệnh trên, thông số “É& ~ ” có nghĩa là tìm tất cả các biến độc lập (kí 
hiệu “”) để tiên đoán fx trong dataframe fulldata. Kết quả cho vào đối tượng, 
temp. Để xem kết quả trong temp, chúng ta lệnh search như sau: 

> search <- step(temp) 


> search <- step(temp) 
Start: AIC= 146.09 
fx ~ iđ + age + bmi + bmd + ictp + pinp 


Df Deviance AIC 

- pinp 1 132.45 144.45 
- id 1 132.47 144.47 
- age 1 132.63 144.63 
— bmi 1 133.41 145.41 
- bmd 1 133.87 145.87 
<none> 132.09 146.09 
~ ictp 1 148.90 160.90 


Step: AIC= 144.45 
fx ~ idđ + age + bmi + bmd + ictp 


Df Deviance AIC 
- id 1 132.81 142.81 
- age 1 133,14 143.14 
~ bmi 1 133.66 143.66 
— bmd 1 134.00 144.00 
<none> 132.45 144.45 
- lctp 1 149.05 159.05 


Step: AIC= 142.81 
fx ~ age + bmi + bmd + ictp 


Df Deviance AIC 
- age 1 133.32 141.32 
- bmi 1 133.67 141.67 
— bmd 1 134.33 142.33 
<none> 132.81 142.81 
- ictp 1 149.88 157.88 


Step: AIC= 141.33 
fx ~ bmi + bmd + ictp 


Df Deviance AIC 
- bmi 1 134.34 140.34 
<none> 133.32 141.32 
= bmd 1 135.65 141.65 
— ictp 1 155.18 161.18 
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Step: AIC= 140.34 
fx ~ bmd + ictp 


Df Deviance AIC 
<none> 134.34 140.34 
= bmd 1 139.15 143.15 


- ictp 1 155,27 159.27 


Trong kết quả trên, R báo cáo cho chúng ta biết từng bước trong quá trình. 
đi tìm một mô hình tối ưu. Khởi đẩu là mô hình với tất cả 6 biến, và trị số 
AIC = 146.09. Bước thứ hai chỉ gồm 5 biến (loại bỏ pinp) và AIC = 144.45, 
v.v... Kết quả có thể tóm lược trong bảng sau đây: 









































fw ~ 1d + age + bmi + bmđ + ictp + pinp 146.09. 
fx ~ id + age + bmi + bmd + ictp 144.45 | 
fx ~ age + bmi + bmd + ictp 142.81 | 
fx ~ bmi + bmd + ictp 141.33 | 
fx ~ bmd + ictp 140,34 





Kết quả 5 bước tìm mỏ hình, R dừng lại với mỗ hình gốm 2 biến bmd và 
ictp vì có giá trị AIC thấp nhất. Thật ra, nếu không muốn in tất cả các bước đi 
tìm mô hình, chúng ta chỉ cần lệnh sua zy như sau: 


> sumnary (search) 








Ca1T: 


glm(formula = f ~ bmd + ictp, family = "“binomial ", 
data = fulldata) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.9126 -0.7317 -0.5559 0.4212 2.1242 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) -1.0651 1.5029 -0.709 0.4785 
bmd -3.4998 1.6638 -2.103 0.0354 * 
+‡ctp 0.6876 0.1704 4.036 5.43e-05 *** 


Signif. codes: 0 ****° 0.001 **** 0.01 *** 0.05 1,7 0.119 91 
(Dispersion parameter for binomial family taken to be 1) 
Null đeviance: 157.81 on 136 đegrees o£ freedom 


Residual deviance: 134.34 on 134 degrees of freedom 
AIC: 140.34 


Number o£ Fisher Scoring iterations: 4 


'lpe/eulunheploerg 


Kết quả này đơn giản hơn kết quả của hàm seazch, vì summary chỉ trình 
bày mô hình sau cùng. Nói tóm lại, trong phân tích này, chúng ta kết luận rằng 
bmd (mật độ chất khoáng trong xương) và ¡ctp (marker về chu trình hủy 
xương) là hai yếu tố có liên hệ hay ảnh hưởng đến nguy cơ gây xương. 


12.6 Chọn mô hình hồi qui logistic bằng Bayesian Model Average 
(BMA) 

Trong chương 10, chúng ta đã xem qua cách chọn và xây dựng một mô 
hình hồi qui tuyến tính bằng ứng dụng phép tính BMA. Chúng ta cũng có thể 
ứng dụng BMA vào việc xây dựng một mô hình hồi qui logistic. 

Tiếp tục ví dụ 1, chúng ta sẽ chuẩn bị dữ liệu cho phân tích BMA bằng 
cách chọn ra biến phụ thuộc (trong trường hợp này là £x) và một ma trận gồm 
các biến độc lập. Tiếp theo đó, chúng ta sử dụng hàm bic.gìm để tìm các 
biến có ảnh hưởng đến £x. 


> attach(fulldata) 








names (fu11data} 
(1] "id" "fx" "“"age" "bmi” "bmd" ”"ictp"” "pinp"” 
# Chọn cột 3 đên 7 (từ age đến pinp) làm ma trận biển độc lặp 
Ð xvars <~- fulldata[,3:7] 
W Chọn fx làm biến phụ thuộc 
>y <- fx 
# Gọi hàm bic.gìm với các thông số như sau: 
> bma.search <- bic.gìm(xvars, y, strict=F, OR=20, 
vất, 





gìm. fami1y="binomi 
# Tóm lược kết quả phân tích: 
>_ summary (bma . search) 





Caã11: Kê sa rleei be “ xVars, ÿ = Y¿ 


gìm.£ami1y="binomial", strict=F,OR=20) | 


9 models were selected 
Best 5 models (cumulative posterior probability = 0.8836 j: 


p!=0  EV SD model 1 model 2 
Intercept 100 -2.85 2.865 -3.920 ~1.065 
age 15.3 0.008 0.026 
bmi 21.7 ~-0.023 0.054 - - 
bmd 39.7 -1.341 1.976 “ -3.499 
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ictp 
pinp 


nVar 
BIC 
post prob 


Tntercept 
age 

Đbmi 

bmd 

ictp 

pinp 


nVar 
BIC 


post prob, 


model 3 
~1.201 


~0.116 


0.680 


-523.63 
0.151 


2 


.-645 0.169 0.606 0.687 
„0003 0.004 š 


1 b3 
-525.04 -524.94 
0.307 0.291 


model4 model 5 
-8.257 ~0.072 
0.063 £ 
- ~0.070 
-2.696 


0.554 0.714 


2 3 
~-522.67 -521.03 


0.094 0.041 


Kết quả phân tích trên đây cho thấy xác suất mà i etp là liên quan đến gãy 
xương là 100%, trong khi đó, xác suất cho bmdl chỉ khoảng 40%. Nhưng quan 
trọng hơn, mô hình "tối ứu” nhất là mô hình với ¡ ctp, và xác suất cho mô hình 
này là 0.307. Mô hình tối ưu thứ hai gồm có ictp và bmd (cũng là mô hình 
dựa vào tiêu chuẩn AIC như mô tả phần trên), nhưng xác suất cho mô hình này 
tương đối thấp hơn (0.291). Ba mô hình khác cũng có thể là “ứng viên” để mô 
tả xác suất gãy xương đẩy đủ. Rõ ràng, qua phân tích BMA, chúng ta có nhiều 
lựa chọn mô hình hơn, và ý thức được sự bất định của một mô hình thống kê. 

>_imageplot..bma (bma. search) 


bmi 


pinp 


Models selected by BMA. 
2 3. 4579 
Model £ 
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Biểu đồ trên thể hiện kết quả bằng số trong phấn trước. Qua biểu đồ này. 
chúng ta thấy iecp là yếu tố có ảnh hưởng đến nguy cơ gãy xương có tính 
nhất quán cao nhất (xuất hiện trong 100% mô hình). Yếu tố quan trọng thứ 
hai có lẽ là bmd hay bmi. Các yếu tố như age và p‡np tuy có khả năng ảnh. 
hưởng đến nguy cơ gãy xương, nhưng các yếu tố này không có độ nhất quán 
cao như các yếu tố vừa kể trên. 

Xây dựng mô hình thống kẻ là một nghệ thuật. Vì tính nghệ thuật của việc 
làm, nhà nghiên cứu phải cân nhắc rất nhiều yếu tố để đi đến một mô hình 
đẹp. Bởi vì mô hình là nhằm mục đích mô tả thực tế, một mô hình đẹp là mô 
hình mô tả sát với thực tế. Tuy nhiên nếu một mô hình phản ánh 100% thực 
tế thì đó không còn là “mô hình” nữa, hay quá phức tạp không thể ứng dụng 
được. Ngược lại một mô hình chỉ mô tả thực tế khoảng 1% thì cũng không thể 
sử dụng được. Xây dựng mô hình phải làm sao tìm điểm cân bằng cho hai thái 
cực đó. Đó là một yêu cầu rất cao, cho nên xây dựng mô hình không chỉ tùy 
thuộc vào các phép tính thống kê, toán học, mà còn phải xem xét đến các yếu 
tố thực tế để bảo đảm cho sự hữu ích của mô hình. Nói như nhà thống kê học 
George Box: “Mô hình nào cũng sai so với thực tế, nhưng trong số các mô hình 
sai đó, có một vài mô hình có ích”. 








Phụ chương: Mô hình hối qui Poission. 


Số liệu sau đây phản ảnh số ca mắc bệnh ung thư da ở phụ nữ thuộc 
“thành phố song sinh” Minneapolis - SL Paul: 





























pỌruốt | DÁNSố | “Ôn my” | TRẾNkopebAsố 

15-24 1 172/675 00058 
2534 | 16 146,207 0.1094 
3544 | 30 121374 02472 
4554 | 71 111353 06376 
55-464 | 102 83,004 1.2289. 
6574 | - 130 55,932 23243 
75-84 133 29,007 4.5851 

85+ | 40 7,538 5.3064 

















Dựa vào hai số liệu trên, chúng ta có thể ước tính tỉ lệ phát sinh (incidence 
rate) tính trên 1000 dân số, và tỉ lệ này được trình bày trong cột cuối cùng của. 
bảng số liệu. Chúng ta đễ dàng thấy tỉ lệ phát sinh ung thư da tăng theo độ tuổi. 

Chúng ta cấn một mô hình để mô tả xu hướng trên, hay mối liên hệ giữa 
độ tuổi và tỉ lệ phát sinh. Ở đây, có một khó khăn là dân số khác nhau giữa các 
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độ tuổi, mà tỉ lệ thì tùy thuộc vào độ tuổi. Cho nên chúng ta cẩn một mô hình 
có thể điểu chỉnh cho hai yếu tố này. Một mô hình thích hợp cho trường hợp. 
này là mô hình hồi qui Poisson. 

Gọi N, là dân số của độ tuổi 7°, và gọi #, là số trường hợp ung thư da, 
chúng ta có thể xem tỉ số &- như là một tỉ lệ phát sinh bệnh. Bây giờ, để tiện 
cho việc tính toán, chúng ta hoán chuyển tỉ số này sang đơn vị logarithm: 


=Á')* log(/,)~log(N,) II 


Mô hình hối qui Poisson phát biểu rằng log của tỉ lệ phát sinh, tức là 
lo, _ , là một hàm số của độ tuổi (và chúng ta kí hiệu độ tuổi bằng x). Nói 


ñ 


cách khác, mô hình này phát biểu rằng: 


s{%:" +Ñt, l2] 


“Thay thế [I] vào vế trái của [2], chúng ta có: 
log(,)~ log(N, )= ø+ ẩ, 
hay nói cách khác: 
log(,)= # + đt, + log(N,) ] 


Mô hình [3] chính là mô hình hồi qui Poisson. Cách diễn đạt mô hình 
theo công thức [3] cho phép chúng ta xây dựng một hàm số khả dĩ (Iikelihood 
function) để ước tính các thông số ø và Ø. Trong mô hình trên, log(N,) được 
gọi là offset, tức là "điểm nhấn”. 

Chúng ta có thể sử dụng R để ước tính các thông số trong mô hình [3] 
như sau: 

age = c(19.5,29.5,39.5,49.5,59.5,69.5,79.5, 89.4) 

cases = c(1, 16, 30, 71, 102, 130, 133, 40) 

Ppop = c(172675, 123065, 96216, 92051, 72159, 54722, 

32185, 8328) 


dataset = data,frame(age, cases, popP) 








fit = gim(cases ~ age + offset (log(pop)); 
fami1y=poisson, data=dataset) 


summary (fit) 
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Kết quả của phân tích là: 









Chúng ta chỉ chú ý đến thông số i ntercept và age. Thay thế các thông 
số này vào mô hình [3] chúng ta có: 
log(,) = -10.552+0.064x, + log(N,) trong đó, x là độ tuổi. 
Cũng có thể viết mô hình trên thành tỉ lệ phát sinh (thay vì log của tỉ lệ) 


như sau: 
L — 1055150066 


N 
Nếu tuổi là 19.5 (x = 19.5), chúng ta có thể ước tính tỉ lệ phát sinh là: 


1055390 06195 — 0 0000904. 
X, 


ñ 
Nếu tuổi là 29.5, tỉ lẻ phát sinh là: 


J5 seeekereigdidigi 
ï 


“Tỉ số của hai tỉ lệ phát sinh này là: 0.000171 / 0.0000904 = 1.89. Nói cách 
khác, tỉ lệ phát sinh tăng gấp 1.89 lấn cho mỗi 10 tuổi tăng. Con số 1.89 này. 
còn có tên là relative risk hay tỉ số nguy cơ tương đối. 


Thật ra, chúng ta có thể ước tính ngay từ ước số của R: 
Coefficients: 











Estimate Std. Error z value Pr(>|z|) 
(Intercept) -10.551604 0.168780 -62.52 <2e-16 *** 
age 0.063629 0.002475 25.71 <2e-16 *** 
Trong phần trên, Ø=0.0636 có nghĩa là cứ mỗi một tuổi tăng thì tỉ số 
nguy cơ tương đối tăng e°3* = 1.065 (hay tăng 6.5%). Do đó, khi tăng 10 tuổi 
thì nguy cơ tương đối mắc bệnh tăng e°%3**!° = 1.89, hay 89%. 


CÁN. lều 
Phân tích sống còn 
(event history hay survival analysis) 








ua ba chương trước, chúng ta đã làm quen với các mô hình thống kê 

cho các biến phụ thuộc liên tục (như áp suất máu) và biến bậc thứ (như 

có/không, bệnh hay không bệnh). Trong nghiên cứu khoa học, và đặc 
biệt là y học và kĩ thuật, có khi nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến 
các biến phụ thuộc mang tính thời gian. Nhà kinh tế học John Maynard Keynes 
từng nói một câu có liên quan đến chủ để mà tôi sẽ mô tả trong chương này 
như sau: “Về lâu về dài tất cả chúng ta đều chết, cái khác nhau là chết sớm hay 
chết muộn mà thôi” Thành ra, ở đây việc theo đối hay mô tả một biến bậc thứ 
như sống hay chết tuy quan trọng, nhưng... không chính xác. Cái biến số quan 
trọng hơn và chính xác hơn là thời gian dẫn đến việc sự kiện xảy ra. 

“Trong các nghiên cứu khoa học, kể cả nghiên cứu lâm sàng, các nhà nghiên 
cứu thường theo dõi đối tượng trong một thời gian, có khi lên đến vài mươi năm. 
Biến cố xảy ra trong thời gian đó như có bệnh hay không có bệnh, sống hay chết, 
vv.. là những biến cố có ý nghĩa lâm sàng nhất định, nhưng thời gian dẫn đến 
bệnh nhân mắc bệnh hay chết còn quan trọng hơn cho việc đánh giá ảnh hưởng 
của một thuật điểu trị hay một yếu tố nguy cơ. Nhưng thời gian này khác nhau 
giữa các bệnh nhân. Chẳng hạn như thời điểm từ lúc điểu trị ung thư đến thời 
điểm bệnh nhân chết rất khác nhau giữa các bệnh nhân, và độ khác biệt đó có thể 
tùy thuộc vào các yếu tố như độ tuổi, giới tính, tình trạng bệnh, và các yếu tố mà 
có khi chúng ta không/chưa đo lường được như tương tác giữa các gen. 

Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến bệnh (hay 
không bệnh) và các yếu tố nguy cơ (risk factors) là mô hình có tên là “survival 
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analysis" (có thể tạm dịch là phân tích sống sót). Cụm từ “survival analysis” 
xuất phát từ nghiên cứu trong bảo hiểm, và giới nghiên cứu y khoa từ đó dùng 
cụm từ cho bộ môn của mình. Nhưng như nói trên, sống/chết không phải là 
biến duy nhất, vì trong thực tế chúng ta cũng có những biến như có bệnh hay 
không bệnh, xảy ra hay không xảy ra, và do đó, trong giới tâm lí học, người ta 
dùng cụm từ “event history analysis” (phân tích biến cố) mà người viết cảm 
thấy có vẻ thích hợp hơn là phân tích sống sót. Ngoài ra, trong các bộ môn kĩ 
thuật, người ta đùng một cụm từ khác, reliability analysis (phân tích độ tin 
cây), để chỉ cho khái niệm sưrvival analysis. Tuy nhiên, trong chương này tôi 
sẽ dùng cụm từ phân tích biến cố. 


13.1 Mô hình phân tích số liệu mang tính thời gian 


Ví dụ 1: Thời gian dẫn đến ngưng sử dụng IUD. Một nghiên cứu về hiệu 
quả của một y cụ ngừa thai trên 18 phụ nữ, tuối từ 18 đến 35. Một số phụ nữ 
ngưng sử dụng y cụ vì bị chảy máu. Còn số khác thì tiếp tục sử dụng. Bảng số 
liệu sau đây là thời gian (tính bằng tuần) kể từ lúc bắt đấu sử dụng y cụ đến 
khi chảy máu (tức ngưng sử dụng) hay đến khi kết thúc nghiên cứu (tức vẫn 
còn sử dụng đến khi chấm dứt nghiên cứu). 


Bảng 1. Thời gian dẫn đến ngưng sử dụng hay tiếp tục sử dụng y cụ IUD 
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Câu hỏi đặt ra là mô tả thời gian ngưng sử dụng y cụ. Thuật ngữ “mô tả” ở 
đây có nghĩa là ước tính số trung vị thời gian dẫn đến ngưng sử dụng, hay xác 
suất mà phụ nữ ngưng sử dụng vào một thời điểm nào đó. Tình trạng tiếp tục 
sử dụng có khi gọi là “survival” (tức "sống sót"). 

Để giải quyết vấn để trên, đối với những phụ nữ đã ngưng sử dụng vấn 
để ước tính thời gian không phải là khó. Nhưng vấn để quan trọng trong dữ 
liệu mang tính thời gian này là một số phụ nữ vẫn còn tiếp tục sử dụng, bởi 
vì chúng ta không biết họ còn sử dụng bao lâu nữa, trong khi nghiên cứu phải 
“đóng sổ” theo một thời điểm định trước. Những trường hợp đó được gọi 
bằng một thuật ngữ khó hiểu là “censored” hay "survival” (tức còn sống, hay 
còn tiếp tục sử dụng, hay biến cố chưa xảy ra). 


Gọi T là thời gian còn tiếp tục sử dụng (có khi gọi là sưzyiwal time). T là 
một biến ngẫu nhiên, với hàm mật độ (probability density distribution) /(0), và 
hàm phân phối tích lũy (cumulative distribution) là: 


F()=ƒ_/(s)4 


Đây là xác suất mà một cá nhân ngưng sử dụng (hay kinh qua biển cổ) tại 
thời điểm ¿. Hàm bổ sung S(/) = 1 - F() thường được gọi là hàm “sống sót” 
(survival function). [ 

Số liệu thời gian 7 thường được mô phỏng bằng hai hàm xác suất: hàm 
sống sót và hàm nguy cơ (hazard function). Hàm sống sót như định nghĩa 
trên là xác suất một cá nhân còn “sống sót” (hay trong ví dụ trên, còn sử dụng 
y cụ) đến một thời điểm ¿. Hàm nguy cơ, thường được viết bằng kí hiệu h(?) 
hay A(/) là xác suất mà cá nhân đó ngưng sử dụng (hay xảy ra biến cố) ngay. 
tại thời điểm . 














A()=m “ 


sao cho h(?) ðt là xác suất một cá nhân ngưng sử dụng trong khoảng thời 
gian ngắn ðí với điểu kiện cá nhân đó sống đến thời điểm :. Từ mối liên hệ: „ 
Pr(sống sót đến t+ôt) = Pr(sống sót đến 0) . Pr(sống sót đến ð: | sống đến 0) 
chúng ta có: 
1~F(r+ðr)=(I—F())x(I-h(t)ðr) 
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'Từ đó, chúng ta có: 
8'*{:)=(L—F())5()ðt 


#0) 
I-F() 





Suy ra, hàm nguy cơ là:  "()= 
Và hàm nguy cơ tích lũy: 
A(t)=Ƒˆ_Ã(w)& 


~70) 
1-F() 


A()==log(I=#(:)) 





Từ định nghĩa hàm nguy cơ —h(?) = „ chúng ta có thể viết: 


Một số hàm nguy cơ có thể ứng dụng để mô tả thời gian này. Hàm đơn. 
giản nhất là một hằng số, dẫn đến một mô hình Poisson (thuộc nhóm các luật 


phân phối mũ): 
/f()=^e?* (t>0) 
Do đó: 
F()=I-e” 
Cho nên: h(tĐ =^ 


Những lí thuyết trên đây thoạt đầu mới xem qua có vẻ tương đối rắc rối, 
nhưng với số liệu thực tế thì sẽ để theo đõi hơn. Bây giờ chúng ta quay lại với 
số liệu từ Ví dụ 1. Để tiện việc theo dõi và tính toán, chúng ta cần phải sắp xếp 
lại dữ liệu trên theo thứ tự thời gian, bất kể đó là thời gian ngưng sử dụng hay 
còn tiếp tục sử dụng: 


10 13* 18* 19 23* 30 36 38* 54* 
56* 59. 75 93 97 104* 107 107* 107% 





Trong dãy số liệu trên đấu **” là để đánh dấu thời gian censored (tức còn. 
tiếp tục sử dụng IUD). Cách đơn giản nhất là chia thời gian từ 10 tuần (ngắn 
nhất) đến 107 tuần (lâu nhất) thành nhiều khoảng thời gian như trong bảng 
phân tích sau đây: 
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Bảng 2. Ước tính xác suất tích lũy cho mỗi khoảng thời gian 






































MỐC | KHOẢNG | SỐPHỤNỮ SỐ PHÙ NỮ XÁC SUẤT. XÁCSUẤT  XÁCSUẤT 
THỜI GIAN | THỜI GIAN |_ LÚCBẮTĐẤU _. NGƯNG SỬ DỤNG |NGƯNG SỬ DỤNG | CÒN SỬ DỤNG . TÍCHLUY 
UỦ (TUẤN) | THỜIĐIẾM(N)} Ló) HH L s 
1 0-9 18 D 00000 10000 | 1.0000 
2 10-18 18 1 00555 0.9445 09445 
3 j19-29 15 1 00667 09333 | 08815 
4 |30-35 13 1 00769 09231 | 08137 
5 J36-58 12 1 00833 09167 | 07459 
6 |59-74 8 1 0.1250 08750 | 06526 
7 75-92 7 1 01428 08572 0.5594 
8 |93-96 6 1 01667 08333 | 04662 
9 |97-106 5 1 02000 08000 | 03729 
10 107~ 3 1 03333 06667 0.2486. 























"Trong bảng tính toán trên, chúng ta có: 


« _ Cột thứ nhất là mốc thời gian (tạm kí hiệu là £). Cột này không có ý 
nghĩa gì, ngoại trừ sử dụng để làm chỉ số; 

+ Cột thứ 2 là khoảng thời gian (duration) tính bằng tuần. Như để cập 
trên, chúng ta chia thời gian thành nhiều khoảng để tính toán, chẳng 
hạn như từ 0 đến 9 tuần, 10 đến 18 tuần, v.v... Chú ý rằng trong thực tế, 
chúng ta không có số liệu cho thời gian từ 0 đến 9 tuần, nhưng khoảng 
thời gian này đặt ra để làm cái mốc khởi đầu để thuận tiện cho việc 
ước tính sau này. Đây chỉ là những phân chia tương đối tùy tiện và chỉ 
có tính cách minh họa; trong thực tế máy tính có thể làm việc đó cho 
chúng ta; 

« _ Cộtthứ3là số đối tượng nghiên cứu n, (hay cụ thể hơn là số phụ nữ trong 
nghiên cứu này) bắt đầu một khoảng thời gian. Chẳng hạn như khoảng 
thời gian 0-9, tại thời điểm bắt đấu 0, có 18 phụ nữ (hay cũng có thể hiểu 
rằng số phụ nữ được theo đõi/quan sát ít nhất 0 tuần là 18 người). 


Trong khoảng thời gian 10-18, ngay tại thời điểm bắt đầu 10, chúng ta có 
18 phụ nữ; nhưng trong khoảng thời gian 19-29, ngay tại thời điểm bắt đầu 19, 
chúng ta có 15 phụ nữ (cụ thể là:19 23* 30 36 38* 54* 56* 59 75 
93 97 104* 107 107* 107*),vv... 

Nói cách khác, cột này thể hiện số đối tượng với thời gian quan sát tối 
thiểu là £. Do đó, trong khoảng thời gian 97 - 106, chúng ta có 5 phụ nữ với 
thời gian theo đõi từ 97 tuần trở lên (97 104* 107 107* 107*). 
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« _ Cột thứ 4 trình bày số phụ nữ ngưng sử dụng y cụ đ, (hay biến cố xảy ra) 
trong một khoảng thời gian. Chẳng hạn như trong khoảng thời gian 10 - 18 
tuần, có một phụ nữ ngưng sử dụng (tại 10 tuấn); trong khoảng thời gian 
19 - 29 tuần cũng có một trường hợp ngưng sử dụng (tại 19 tuần), v.v... 

« _ Cột thứ 5 là xác suất nguy cơ h(f) trong một khoảng thời gian. Một 
cách đơn giản, h() được ước tính bằng cách lấy đ, chia cho ø„ Ví dụ 
trong khoảng thời gian 10-18 có 1 phụ nữ ngưng sử dụng (trong số 18 
phụ nữ), và xác suất nguy cơ là 1/18 = 0.0555. Xác suất này được ước 
tính cho từng khoảng thời gian. 

« _ Cột thứ 6 là xác suất còn sử dụng cho một khoảng thời gian, tức lấy 1 
trừ cho h(?) trong cột thứ 5. Xác suất này không cung cấp nhiều thông 
tin, nhưng chỉ được trình bày để đễ theo dõi tính toán trong cột kế tiếp. 


« _ Cột thứ 7 là xác suất tích lũy còn sử dụng y cụ S() (hay cumulative 
survival probability). Đây là cột số liệu quan trọng nhất cho phân tích. 
Vì tính chất “tích lũy”, cho nên cách ước tính được nhân từ hai hay 
nhiều xác suất. 


“Trong khoảng thời gian 0-9, xác suất tích lũy chính là xác suất còn sử 
dụng trong cột 6 (vì không có ai ngưng sử dụng). 

Trong khoảng thời gian 10-18, xác suất tích lũy được ước tính bằng cách 
lấy xác suất còn sử dụng trong thời gian 0-9 nhân cho xác suất còn sử dụng 
trong thời gian 10-18, tức là: 1.000 x 0.9445 = 0.9445. Ý nghĩa của ước tính này 
là: xác suất còn sử dụng cho đến thời gian 9 tuần là 94.459. 

Tương tự, trong khoảng thời gian 19-29 tuấn, xác suất tích lũy còn 
sử dụng được tính bằng cách lấy xác suất tích lũy còn sử dụng đến tuần 
10-18 nhân cho xác suất còn sử dụng trong khoảng thời gian 19-29: 
0.9445 x 0.9333 = 0.8815. Tức là, xác suất còn sử dụng đến tuần 29 là 88.15%. 
z2} Chú ý dấu mũ 

, 

*A” trên S(£) là để nhắc nhở rằng đó là ước số. Nếu gọi xác suất còn sử dụng 

trong khoảng thời gian £ là p, (tức cột 6), thì S(£) cũng có thể tính bằng công 
ñ 

thức: Š()=] J2, - 


tr 


















Nói chung, công thức ước tính S() là Š(z)= 


nh 


Phép ước tính được mô tả trên thường được gọi là ước tính Kaplan-Meier 
(Kaplan-Meier estimates), hay thỉnh thoảng cũng được gọi là product-limit 
estimate. 
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13.2 Ước tính Kaplan-Meier bằng R 

Tất cả các tính toán trên, tất nhiên, có thể được tiến hành bằng R. Trong 
R có một package tên là sarviva1 (do Terry Therneau và Thomas Lumley. 
phát triển) có thể ứng dụng để phân tích biến cố. Trong phần sau đây chúng ta 
sẽ từng bước sử dụng package này. 

Quay lại với Ví dụ 1, việc đầu tiên mà chúng ta cần làm là nhập dữ liệu vào 
R. Nhưng trước hết, chúng ta phải nhập package surviva1 vào môi trường 
làm việc: 

5 1iBFãFÿ (surviva1) 

Kế đến, chúng ta tạo ra hai biến số: biến thứ nhất gồm thời gian (hãy gọi 
là weeks cho trường hợp này), và biến thứ hai là chỉ số cho biết đối tượng 
ngưng sử dụng y cụ (cho giá trị 1) hay còn tiếp tục sử dụng (cho giả trị 0) và 
đặt tên biến này là statss. Sau đó nhập hai biến vào một dataframe (và gọi 
là dara) để tiện việc phân tích. 

> weeks <- c(10, 13, 18, 19, 23, 30, 36, 38, 54, 56, 59, 

75, 93, 97, 104, 107, 107, 107) 

> status <= œ(1, 0, 0, 1, 0, 1, 1,0, 0, 0, 1, 1, 1, 1, 

0, 1, 0, 0) 

> data <- data.frame(weeks, status) 

Bây giờ, chúng ta đã sẵn sàng phân tích. Để ước tính Kaplan-Meier, chúng. 
ta sẽ sử dụng hai hàm Suzv và survfit trong package survival. Hàm 
Surv dùng để tạo ra một biến số hợp (combined variable) với thời gian và 
tình trạng. Ví dụ, trong lệnh sau đây: 

> survtime <- Surv(weeks, status==l) 

> survtime 

(1] 10 13+ 18+ 19 23+ 30 36 38+ 54t 56+ 59 75 93 97 

(15] 104+ 107 107+ 107+ 

Chúng ta sẽ có survtime là một biến với thời gian và dấu “+” (chỉ còn 
sống sót, hay censored observation, hay trong trường hợp này là còn sử dụng 
y cụ). Biến số này chỉ có giá trị và ý nghĩa cho phân tích của R, chứ trong thực 
tế, có lẽ chúng ta không cần nó. 

Còn hàm survfit cũng khá đơn giản, chúng ta chỉ cẩn cung cấp hai 
thông số: thời gian và chỉ số như ví dụ sau đây: 


> survfit (Surv(weeks, status==l)) 
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Hay nếu đã có object survt ime thì chúng ta chỉ đơn giản “gọi”: 


> survfit (survtime) 


Call: 


survfit (formula 


survtime) 


n events median 0.95LCL 0.95UCL 


18 


93 


s9 


Inf 


Kết quả trên đây chẳng có gì hấp dẫn, vì nó cung cấp những thông tin 
mà chúng ta đã biết: có 9 biến cố (ngưng sử dụng y cụ) trong số 18 đối tượng. 
Thời gian (median - trung vị) ngưng sử dụng là 93 tuần, với khoảng tin cậy. 
95% từ 59 tuần đến vô cực (Tn£ = infinity). Để có thêm kết quả chúng ta 
cẩn phải đưa kết quả phân tích vào một object chẳng hạn như kp và dùng hàm. 
summa+y để biết thêm chỉ tiết: 


> kp <- survfit(Surv(weeks, status==l) ~ 1) 


> summary (kp) 
survfit (formula = Surv(weeks, status == 1) ~ 1) 


Call: 


time n.risk n.event survival std.err 
-944 
„881 
„814 


10 
19 
30 
346 
58 
75 
93 
97 
107 


18 
15 
13 
12 

8 


6 ươm « 


.... .... 


eoocecococoocoec 


T46 
653 
559 


„466 


373 


-249 


0. 
0.0790 
0.0978 
0.1107 
0. 
0 
0 
0 


0540 


1303 


„1412 
-1452 
.1430 
0. 


1392 


eooeoceoeceeoeeoe 


lower 95% 
-844 
-139 
.-643 


558 
441 
341 
253 


„176 
-083 


©coooocoocxzee 


CI upper 95% CI 


„000 
.-000 
„000 
-998 
-965 
.917 
-858 
-791 
-745 


Một phần của kết quả này (cột time, n.risk, n.event, survival) 
chúng ta đã tính toán “thủ công” trong bảng trên. Tuy nhiên R còn cung cấp. 
cho chúng ta sai số chuẩn (standard error) của S(/) và khoảng tin cậy 95%. 


Khoảng tin cậy 95% được ước tính từ công thức: 


mà trong đó: 


„j3 





0]-š 





§()+1.96xse[ Š()]. 


*Äxe=a] 
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Công thức sai số chuẩn này còn được gọi là công thức Greenwood (hay 
Greenwoodš formula). Chúng ta có thể thể hiện kết quả trên bằng một biểu đỗ 
bằng hàm p1ot như sau: 


> plot(kp, xlab="Time (weeks) “, 


ylab="Cumulative survival probability") 





1Ô 
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“Trong biểu đố trên, trục hoành là thời gian (tính bằng tuần) và trục tung 
là xác suất tích lũy còn sử dụng y cụ. Đường chính giữa chính là xác suất tích 
lũy Š(z), hai đường chấm là khoảng tin cậy 95% của Š(:). Qua kết quả phân 
tích này, chúng ta có thể phát biểu rằng xác suất sử dụng y cụ đến tuần 107 là 
khoảng 25% và khoảng tin cây từ 8% đến 74.5%. Khoảng tin cậy khá rộng cho 
biết ước số có độ dao động cao, đơn giản vì số lượng đối tượng nghiên cứu 
còn tương đối thấp. 


13.3 So sánh hai hàm xác suất tích lũy: 
kiểm định log-rank (log-rank test) 


Phân tích trên chỉ áp dụng cho một nhóm đối tượng, và mục đích chính. 
là ước tính S(£) cho từng khoảng thời gian. Trong thực tế, nhiều nghiên cứu 
có mục đích so sánh S(£) giữa hai hay nhiều nhóm khác nhau. Chẳng hạn như 
trong các nghiên cứu lâm sàng, nhất là nghiên cứu chữa trị ung thư, các nhà 
nghiên cứu thường so sánh thời gian sống sót giữa hai nhóm bệnh nhân để 
đánh giá mức độ hiệu nghiệm của một thuật điểu trị. 
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Ví dụ 2: Một nghiên cứu trên 48 bệnh nhân với bệnh mụn giộp (herpes) 
ở bộ phân sinh dục nhằm xét nghiệm hiệu quả của một loại vắc-xin mới (tạm. 
gọi bằng mã danh qd2). Bệnh nhân được chia thành 2 nhóm một cách ngẫu 
nhiên: nhóm 1 được điểu trị bằng gd2 (gốm 25 người), và 23 người còn lại 
trong nhóm hai nhận giả dược (placebo). Tình trạng bệnh được theo dõi 
trong vòng 12 tháng. Bảng số liệu sau đây trình bày thời gian (tính bằng tuần 
và gọi tắt là time) đến khi bệnh tái phát. Ngoài ra, mỗi bệnh nhãn còn cung 
cấp số liệu về số lấn bị nhiễm trong vòng 12 tháng trước khi tham gia công 
trình nghiên cứu (episodes). Theo kinh nghiệm lâm sàng, episodes có 
liên hệ mật thiết đến xác suất bị nhiễm (và chúng ta sẽ quay lại với cách phân 
tích biến số này trong một phần sau). Câu hỏi đặt ra là gd2 có hiệu nghiệm 





Bảng 3. Thời gian đến nhiễm trùng ở bệnh nhân 
với bệnh mụn giộp cho nhóm gd2 và giả dược 











id episodes time infected 
1 12 81 
3 10 12 0 
6 1 52 0 
1 10 28 1 
86 44 1 

10 8 1 1 

12 8 )) ý 

14 9 52 1 

15 11 35 1 

18 13 6 1 

20 Ù 12 1 

23 13 10 

249 52 0 

26 12 52 0 

28 13 36 1 

3ì 8 52 0 

33 10 9.1 

34 16 1 0 

366 52 0 

3914 15 1 

40 13 13 1 

42 13 z1 1 

44 16 24 0 

46 13 s2 0 

48. 9 28 1 





id episodes time infected 


2 9 15 1 
4 10 440 
5S 12 2 0 
9.7 8 1 
11 7 12 1 
13 7 52 0 
16 ? 2 1 
17 11 191 
19 16 § ẤÄ 
21 16 10 1 
2 6 15 0 
25 15 4 1 
21 9 9.0 
29 10 3} # 
30 17 1 1 
328 12 1 
3S 8 20 1 
318 320 
38.8 fE: ứ 
41 14 s1 
43 13 351 
4 9 28 1 
4T 15 6 1 








Chú thích: trong biến +::£e=+e4 (nhiễm), 1 có nghĩa là bị nhiễm, và 0 là không bị nhiễm. 
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Trong trường hợp trên chúng ta có hai nhóm để so sánh. Một cách phân tích 
đơn giản là ước tính S(/) cho từng nhóm và từng khoảng thời gian, rối so sánh hai 
nhóm bằng một kiểm định thống kê thích hợp. Song, phương pháp phân tích này 
có nhược điểm là nó không cung cấp cho chúng ta một “bức tranh” chung của 
tất cả các khoảng thời gian. Ngoài ra, vấn để so sánh giữa hai nhóm trong nhiều 
khoảng thời gian khác nhau làm cho kết quả rất khó diễn dịch. 

Để khắc phục hai nhược điểm so sánh trên, một phương pháp phân. 
tích được phát triển có tên là log-rank test (kiểm định log-rank). Đây là một 
phương pháp phân tích phi thông số để kiểm định giả thiết rằng hai nhóm có. 
cùng S(£). Phương pháp này cũng chia thời gian ra thành k khoảng thời gian, 
tạ t„ t„... „ mà khoảng thời gian £ (/ = 1, 2, 3... k) phản ánh thời điểm j khi 
một hay nhiều đối tượng của hai nhóm cộng lại. Gọi Lñ là số bệnh nhân trong 
nhóm ¡ (¡ = 1, 2) bị bệnh trong khoảng thời gian £„ Gọi đ, = đ,, + đ,, là tổng số 
bệnh nhân mắc bệnh và đặt ø, =m, +n,, là tổng số bệnh nhân của hai nhóm 
trong khoảng thời gian 0, Với j = 1, 2, 3..., k, chúng ta có thể ước tính: 

" cụ 
mụn;,d,(n,~4,) 
Là ƯƯNP=. 
m/(m,~1) 

(Ở đây, «,„, e,, là số bệnh nhân trong nhóm 1 và 2 mà chúng ta tiên đoán 
là sẽ mắc bệnh nếu có cùng xác suất mắc bệnh trong cả hai nhóm (tức xác suất 
trung bình), v, là phương sai). Ngoài ra, chúng ta có thể ước tính tổng số bệnh 
nhân mắc bệnh cho nhóm 1 và 2: 


ý 








+ h 
0.=34, và 0,=34,, 
mm ” 
Và tổng số bệnh nhân mắc bệnh nếu có cùng chung xác suất mắc bệnh 
cho cả hai nhóm: 


h h 
E=>v, và  V=Šxv, 
= „ 

Gọi T là một biến ngẫu nhiên phản ánh thời gian từ khi được điểu trị đến 
khi mắc bệnh cho nhóm ¡, và gọi SŠ,(?)= Pr(7; >r), kiểm định log-rank được 
định nghĩa như sau: ẳ 

„-(9=8) 


E 
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Nếu ÿˆ > #¿„ (trong đó, z¿„ là trị số Chí bình phương với độ ý nghĩa 
thống kê œ = 0.95), chúng ta có bằng chứng để kết luận rằng độ khác biệt về 
S() giữa hai nhóm có ý nghĩa thống kê. 


13.4 Kiểm định log-rank bằng R 


Ví dụ 2 (tiếp tục): Chúng ta quay lại với ví dụ 2 và sẽ sử dụng R để tính 
toán kiểm định log-rank. Trước hết, chúng ta phải nhập các dữ liệu cần thiết. 


bằng các lệnh thông thường như sau: 


> group <= c(1, 1, 
1, 
#u đ,, 
2, 2, 


1ự lự: 1y 
3. 3y: 3; 
2, 2,2, 
2, 2, 2, 


> episode <- c(12, 
12, 
9, 
3% 


10, 
13, 
10, 
10, 


> time <- c(8, 12, 52, 


12,20,32,15, 


> infected <- c(1, 0, 
1, 
0, 
1„ 


T„ 10, 
8, 10, 16, 
12, 7, 7, T, 
11, 8, 8, 


28, 44, 14, 
52, 36, 52, 9, 11, 52,15, 13, 21,24, 
15,44, 2, 8,12,52,21,19, 
5,35,28, 


1, 1, 1, 1, 1, 
1, 1, 1, 1, 1, 
2, 2, 2, 2, 2, 2, 2, 
2) 


3ạ 1e ty 1y 5y 


2, 


6, 8, 8, 9, 11, 13, ?, 13, 
6, 14, 13, 13, 16, 13, 
7, 11, 16, 16, 6, 15, 


8, 14, 13, 9, 15) 


9, 
9, 


9, 


3, 52, 35, 6, 12, 7, 52, 
52,28, 
9,27, 1, 


6,10,15, 4, 


6) 


1„ 1„ 
0, 1, 
1, 1, 0, 


1, 0, 0, 0, 1, 


1, 0, 1, 1, 








> daEa <~ data, frame (gFouP, 


episode, time, ïinfeeted) 


(a) Chúng ta ứng dụng hàm suzvfit để ước tính xác suất tích lũy S(/) cho. 
từng nhóm bệnh nhân và cho kết quả vào đối tượng kp. by. gzoup như sau 
(chú ý cách cung cấp thông số ~ group): 


> l1ibrary(survival) 


> kp.by.group <- survfit (Surv(time, infected==l) ~ group) 


> summary (kp.by.group) 


Call: survfit(formula = Surv(time, infected == 


group=1 


time n.risk n.event survival std.err lower 95% CT 


1) ~ group) 


upper 95% CI 
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8g 25 1 .888 1.000 
6 24 1 .820 1.000 
8B 22 1 .T75 1.000 
9 21 lÌ „T0 0.997 
12 19 1 -64 0.973 
13 17 1 .58 0.945 
14 16 hÌ .534 0.915 
15 15 1 .483 0.882 
21 14 1 .43 0,846 
28 12 2 .33 0:768 
35 10 1 .28 0.725 
36 9 1 -24 0.680 
448 lÌ .18 0.633 
52 vỏ 1 0,584 

group=Z 

time n.risk n.event survival std.err lower 95% Cï upper 95% CI 
1 23 1 0.957 0.0425 0.8767 1.000 
4 21 1 0.911 0.0601 0.8004 1.000 
5 20 1 0.865 0.0723 0.7346 1.000 
6 19 2 0.714 0.0889 0.6183 0.970 
8 17 1 0.729 0.0946 0.5650 0.940 
10 15 R 0.680 0.1000 0.5099 0.907 
12 14 2 0.583 0.1067 0.4072 0.835 
15 12 2 0.486 0.1088 0.3132 0.754 
199 š 0.432 0.1093 0.2630 0.709 
208 1 0.378 0.1082 0.2156 0.662 
21 1 1 0.324 0.1053 0.1712 0.613 
21 6 1 0.270 0.1007 0.1300 0.561 
285 1 0.216 0.0939 0.0921 0.506 
35 3 1 0.144 0.0859 0.0447 0.463 


Những thông tin trên cung cấp cho chúng ta “xác suất sống sót” trong 
từng thời điểm, nhưng vì là những con số nên khó cảm nhận được sự khác 
biệt giữa hai nhóm. Một cách khác thể hiện các xác suất này là qua biểu đổ 
Kaplan-Meier cho từng nhóm. Cách vẽ biểu đồ này có thể bằng lệnh sau đây: 


> _plot (kP.by.group, 


xlab="Time "„ 
ylab="Cum. survival probability", 


col=c ("black", 


"red")) 
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Qua biểu đồ trên, chúng ta có thể thấy khá rõ là nhóm được điều trị bằng 
gd2 (đường màu đen phía trên) có xác suất nhiễm (hay bệnh tái phát) thấp 
hơn nhóm giả dược (đường màu đỏ nét đứt, phía dưới). Nhưng phân tích trên 
không cung cấp trị số p để chúng ta phát biểu kết luận. 


(b) Để có trị số p, chúng ta cẩn phải sử dụng hàm survdii ££f như sau: 


> survdiff (Surv (time, infected==l) ~ group 
Call: 
survdiff (formula = Surv(time, infected == 1) ~ group) 


N Observed Expected (O-E)^2/E (O-E)^2/V 
group=l 25 15 20.0 1.26 3.65 
group=2 23 17 12.0 2.11 3.65 


Chisq= 3.7 on 1 đegrees of freedom, p= 0.056 


Kết quả phân tích log-rank cho trị số p = 0.056. Vì p > 0.05, chúng ta 
vẫn chưa có bằng chứng thuyết phục để kết luận rằng gd2 quả thật có hiệu 
nghiệm giảm nguy cơ tái phát bệnh. 


13.5 Mô hình Cox (hay Cox's proportional hazards model) 


Kiểm định log-rank là phương pháp cho phép chúng ta so sánh S(/) giữa 
hai hay nhiều nhóm. Nhưng trong thực tế, S(/) hay hàm nguy cơ h{£) có thể 
không chỉ khác nhau giữa các nhóm, mà còn chịu sự chỉ phối của các yếu tố 
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khác. Vấn để đặt ra là làm sao ước tính mức độ ảnh hưởng của các yếu tố nguy 
cơ (risk factors) đến h(£). Chẳng hạn như trong nghiên cứu trên, số lần bệnh 
nhân từng bị nhiễm (biến epi sode) được xem là có ảnh hưởng đến nguy cơ 
bệnh tái phát. Do đó, vấn để đặt ra là nếu chúng ta xem xét và điều chỉnh cho. 
ảnh hưởng của episodel thì mức độ khác biệt về S(?) giữa hai nhóm có thật 
sự tồn tại hay không?  ' 

Vào khoảng giữa thập niên 1970s, David R. Cox, giáo sư thống kê học 
thuộc Đại học Imperial College (London, Anh) phát triển một phương pháp 
phân tích dựa vào mô hình hối qui (regression) để trả lời câu hỏi trên (D.R. 
Cox, Regression models and life tables (with điscussion), Journal of the Royal 
Statistical Society series B, 1972; 74:187-220). Phương pháp phân tích đó, sau 
này được gọi là Mô hình Cox. Mô hình Cox được đánh giá là một trong những 
phát triển quan trọng nhất của khoa học nói chung (không chỉ khoa học thống 
kê) trong thế kỉ 20! Bài báo vừa để cập đã được trích dẫn hàng vạn lần trong 
vòng 30 năm qua. 

'Vì mô tả chỉ tiết mô hình Cox nằm ngoài phạm vi của chương sách này, 
nên chúng ta chỉ xem qua vài nét chính để bạn đọc có thể nắm vấn để. Gọi x„, 

*„ „- x, là p yếu tố nguy cơ. x có thể là các biến liên tục hay không liên tục. 
Mô hình Cox phát biểu rằng: 











h(t)=Ã(t)c”t Éh9Bnt săn 

h(t) được định nghĩa như phần trên (tức hàm nguy cơ), Ä, (J = 1, 2, 3, ... p) 
là hệ số ảnh hưởng liên quan đến x„ và À(/) là hàm số nguy cơ nếu các yếu 
tố nguy cơ x không tồn tại (còn gọi là baseline hazard function). Vì mức độ 
ảnh hưởng của một yếu tố nguy cơ x thường được thể hiện bằng tỉ số nguy 
cơ (hazard ratio, HIR, cũng tương tự như odds ratio trong phân tích hồi qui 
logistic), hệ số exp(B,) chính là HR cho khi x,tăng một đơn vị. 

Hàm coxph trong package R có thể được ứng dụng để ước tính hệ số B,. 
Trong lệnh sau đây: 

> analysis <- coxph (Surv(time, infected==l) ~ group) 

Trong lệnh trên, chúng ta muốn kiểm định ảnh hưởng của hai nhóm điểu 
trị đến hàm nguy cơ h(£) và kết quả được chứa trong đối tượng analysis. 
Để tóm lược ana1ysi s, chúng ta sử dụng hàm summary: 
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> summary (analysis) 
Call: 
coxph (formula = Surv(time, infected 





1) ~ group) 


n= 48 
coef exp(coef) se(coef) z p 
group 0.684 1.98 0.363 1.88 0.06 


exp(coef) exp(-coef) lower .95 upper .95 
group 1.98 0.505 0.973 4.04 


Rsquare= 0.071 (max possible= 0.986 ) 
Likelihood ratio test= 3.55 on 1 df, p*“0.0597 
Wald test “ 3.55 on 1 df, p=0.0596 


Score (iogrank) test = 3.67 on 1 df, p=0.0553 


Nên nhớ nhóm điểu trị được cho mã số 1, và nhóm giả được có mã số 2. 
Do đó, kết quả phân tích trên cho biết khi qzoup tăng 1 đơn vị thì h(/) tăng 1.98. 
lẩn (với khoảng tin cây 95% dao động từ 0.97 đến 4.04). Nói cách khác, nguy cơ 
bệnh tái phát trong nhóm giả dược cao hơn nhóm điểu trị g2 gần 2 lần. Tuy 
nhiên vì khoảng tin cậy 95% bao gốm cả 1 và trị số p = 0.06, cho nên chúng ta 
vẫn không thể kết luận rằng mức độ ảnh hưởng này có ý nghĩa thống kẻ. 


Nhưng chúng ta cấn phải xem xét (và điểu chỉnh) cho ảnh hưởng của 
quá trình bệnh trong quá khứ được đo lường bằng biến số epi sode. Để tiến 
hành phân tích này, chúng ta cho thêm epi sode vào hàm coxph như sau: 


> analysis <- coxph (Surv (time, infected==l) ~ group + episode) 
> sumnary (analysis) 

Call: 

coxph (formula = Surv (time, infected == 1) ~ group + episode) 


n= 48 

coef exp(coef) se(coef) Z p 
group 0.874 2.40 0.3712 2.35 0.0190 
episode 0.172 1.19 0.0648 2.66 0.0079 


exp(coef) exp(-coef) lower .95 upper .95 
group 2.40 0.417 1.16 4.96 
spisode 1.19 0.842 1.05 1.35 


Rsquare= 0.196 (max possible= 0.986.) 

Likelihood ratio test= 10.5 on 2 df,| p=0.00537 
Wald test = 10.4 on 2 df, p=0.00555 | 
Score (logrank) test = 10.6 on 2 df,| p=0.00489 
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Kết quả phân tích trên cho chúng ta một diễn dịch khác và có lẽ chính xác 
hơn. Mô hình h() bây giờ là: 


ht | group,episode) = Ã(t) e" "8lessele8fA(maes) 
Nếu epi sode tạm thời giữ cố định, tỉ số h(#) giữa hai nhóm là: 


ñ(t|group =2) _ em) — 2 2o 
h{f | group =1) 
“Tương tự, nếu group tạm thời giữ cố định, khi epi sode tăng một đơn 
vị, tỉ số nguy cơ sẽ tăng 1.14 lần. 


Nói cách khác, mỗi lấn mắc bệnh trong quá khứ (tức episode tăng 1 
đơn vị) làm tăng nguy cơ tái phát bệnh 19% (với khoảng tin cậy 95% dao động 
từ 5% đến 35%). Nhóm giả dược có nguy cơ bệnh tái phát tăng gấp 2.4 lần so. 
với nhóm điểu trị bằng gd2 (và khoảng tin cậy 95% có thể từ 1.2 đến gần 5 
lần). Cả hai yếu tố (nhóm điểu trị) và epi sode đểu có ý nghĩa thống kê, vì 
trị số p<0.05. 

Nhưng epi sode là một biến liên tục. Vấn để đặt ra là sau khi điểu chỉnh. 
episode thì hàm S(#) cho từng nhóm sẽ ra sao? Cách khách quan nhất là giả 
định cả hai nhóm gd2 và giả dược có cùng số lần epi sode (như số trung 
bình chẳng hạn), và hàm S() cho từng nhóm có thể ước tính bằng: 


> Cox.model <~ survfit (coxph (Surv (time, infected==l) 
~episode+strata (group) ) ) 


> plot (Cox.model, 
xlab= "Time "„ 
ylab= " Cumulative survival probability "„ 
col=c( "black ", "red")) 
hay đơn giản hơn: 
> plot (survfit (coxph (Surv (time, 
infected==1) ~episode+strata (group) ) ) „ 
x1ab="Time ", 
ylab="Cumulative survival probability"”, 


col=c("black", "red")) 
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13.6 Xây dựng mô hình Cox bằng Bayesian Model Average (BMA) 

Cũng như trường hợp của phân tích hối qui tuyến tính đa biến và phân 
tích hồi qui logistic đa biến, vấn để tìm một mô hình “tối ứu” để tiên đoán biến 
cố trong điểu kiện có nhiều biến độc lập là một vấn để nan giải. Phần lớn sách 
giáo khoa thống kê học trình bày ba phương án chính để tìm một mô hình tối 
ưu: forward algorithm, backward algorithm, và tiêu chuẩn AIC. 


Với phương án forward algorithm, chúng ta khởi đầu tìm biển độc lập x 
có ảnh hưởng lớn đến biến phụ thuộc y, rồi từng bước thêm các biến độc lập 
khác x cho đến khi mô hình không còn cải tiến thêm nữa. 


Với phương án backward algorithm, chúng ta khởi đầu bằng cách xem xét 
tất cả biến đóc lập x trong dữ liệu có thể có ảnh hưởng lớn đến biến phụ thuộc 
y, rồi từng bước loại bỏ từng biến độc lập x cho đến khi mỏ hình chỉ còn lại 
những biến có ý nghĩa thống kê. 

Hai phương án trên (forward và backward algorithm) dựa vào phần dư. 
(residual) và trị số P để xét một mô hình tối ưu. Một phương án thứ ba là dựa 
vào tiêu chuẩn Aikaike Information Criterion (AIC) vừa được trình bày trong 
chương trước. Để hiểu phương pháp xây dựng mô hình dựa vào AIC chúng ta 
sẽ lấy một ví dụ thực tế như sau. Giả dụ chúng ta muốn đi từ tỉnh A đến tỉnh 
B qua huyện C, và mỗi tuyến đường chúng ta có 3 lựa chọn: bằng xe hơi, bằng 
đường thủy, và bằng xe gắn máy. Tất nhiên, đi xe hơi đắt tiền hơn đi xe gắn 
máy; mặt khác, đi đường thủy tuy ít tốn kém nhưng chậm hơn đi bằng xe hơi 
hay xe gắn máy. Nếu có tất cả 6 phương án đi, vấn để đặt ra là chúng ta muốn. 
tìm một phương án đi sao cho ít tốn kém nhất, nhưng tiêu ra một thời gian 
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ngắn nhất! Tương tự, phương pháp xây dựng mô hình dựa vào tiêu chuẩn AIC 
là đi tìm một mô hình sao cho ít thông số nhất nhưng có khả năng tiên đoán 
biến phụ thuộc đầy đủ nhất. 

Nhưng cả ba phương án trên có vấn đế là mô hình "tối ưu” nhất được xem. 
là mô hình sau cùng, và tất cả suy luận khoa học đều dựa vào ước số của mô. 
hình đó. Trong thực tế, bất cứ mô hình nào (kể cả mô hình “tối ưu”) cũng có độ 
bất định của nó, và khi chúng ta có thêm số liệu, mô hình tối ứu chưa chắc là 
mô hình sau cùng, và do đó suy luận có thể sai lầm. Một cách tốt hơn và có triển. 
vọng hơn để xem xét đến yếu tố bất định này là Bayesian Model Average (BMA). 


Với phân tích BMA, thay vì chúng ta hỏi yếu tố độc lập x ảnh hưởng đến 
biến phụ thuộc có ý nghĩa thống kê hay không, chúng ta hỏi: xác suất mà biến 
độc lập x có ảnh hưởng đến y là bao nhiêu. Để trả lời câu hỏi đó BMA xem xét 
tất cả các mô hình có khả năng giải thích y, và xem trong các mô hình đó, biến 
x xuất hiện bao nhiêu lấn. 

Ví dụ 3: Trong ví dụ sau đây, chúng ta sẽ mô phỏng một nghiên cứu với 
5 biến độc lập x„, x,„ x„ x„ và x,.. Ngoại trừ x,, 4 biến kia được mô phỏng theo 
luật phân phối chuẩn. Biến y là thời gian và kèm theo biến tử vong (death). 
Trong 5 biến x này, chỉ có biến x, có liên hệ với xác suất tử vong bằng mối liên 
hệ exp (3*x1 + 1), còn các biến x„ x„ x„ và x, được mô phỏng hoàn toàn 
độc lập với nguy cơ tử vong. Chúng ta sẽ sử dụng phương pháp xây dựng mô 
hình theo tiêu chuẩn AIC và BMA để so sánh. 

# Nhập package survival và BMA để phân tích 


> 1ibrary (survival) 
> 1ibrary (BMA) 


# Tạo ra 5 biến số độc lập 
> x1 <- (1:50)/2 - 3 

> x2 <- rnorm(50) 

> x3 <- rnorm(50) 

> x4 <- rnorm(50) 

> x5 <- rnorm(50) 


# Mô phỏng mối liên hệ risk: (beta*x1 + 1) 
> modell <-' exp(3*x1 + 1) 


W Tạo ra biến số phụ thuộc vì 
> ÿ <- rexp(50,| ratel È modeL] 
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Tạo ra biến sự kiện theo luật phân phối mũ, ti lệ 0.3 
censored <- rexp(50, rate=0.3) 

ycencored <- pmin(y, censored) 

death <- as.numeric(y <= censored) 


vvvw 


Cho tất cả biến số vào data frame tên simdata _ 
simdata <- data.frame(y, death, xl,x2,x3,x4,x5) 


v. 


# Phân tích bằng mô hình Cox 
> cox <- coxph(Surv(y, death) ~ ., data=simdata) 
> summary (cox) 


Call: 
coxph (formula = Surv(y, death) ~ ., data = simdata) 
n= 50 

coef exp(coef) se(coef) z P 


xl 3.2325 25.344 0.568 5.6908 1,3e-08 
x2 -0.0319 0.969 0.331 -0.0963 9.2e-01 
x3 0.3112 1.365 0.327 0.9518 3.4e-01 
x4 0.1364 1.146 0.297 0.4600 6.5e-01 
xã 0.4898 1,632 0,313 1.5643 1.2e-01 


exp(coef) exp(-coef) lower .95 upper .95 
x1 25.344 0.0395 8.325 77.16 
x2 0.969 1.0324 0.506 1.85 
x3 1.365 0.7326 0.719 2.59 
x4 1.146 0.8725 0.641 2.05 
x5 1.632 0.6127 0.883 3.01 


Rsquare= 0.992 (max possible= 0.997 ) 
Likelihood ratio test= 241 on 5 df, p=0 
Wald test “ 33.3 on 5 đf, p=3.36e-06 
§core (logrank) test = 107 on 5 đf, p=0 


Kết quả trên cho thấy biến x1, x3 và x5 ảnh hưởng có ý nghĩa thống kê 


đến biến y. Tất nhiên, đây là một kết quả sai vì chúng ta biết rằng chỉ có x1 là 
có ý nghĩa thống kê mà thôi. Bây giờ chúng ta thử áp dụng cách xây dựng mô 
hình dựa vào tiêu chuẩn AIC: 


# Tìm mô hình dựa vào tiêu chuẩn AIC 

> searchAIC <- step(cox, đirection="both") 

> summary (searchAIC) 

Call: 

coxph (formula = Surv(y, death) ~ xi + x5, data = simdata) 


se (coef z 
lên pm 3-Ae-o 
0.297 _ -45 1.Be-01 


n=| 50 

Eoef exp(coef 
x1 8.126 22.79 
x5 0.429 1,54- 
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exp(coef) exp(-coef) lower .95 upper .95 
xI 22.79 0.0439 8.080 64.27 
x5 1.54 0.6510 0.858 2.75 


Rsquare= 0.992 (max possible= 0.997 
Likelihood ratio test= 240 on 2 đf, p=0 
Wald test = 35.3 on 2 để, p=2.18e-08 
Score (logrank) test = 104 on 2 đf, p=0 


Kết quả này cho thấy «1 và 5 là hai yếu tố độc lập và ảnh hưởng của 
chúng đến biến y được xem là có ý nghĩa thống kê. Một lần nữa, kết quả này 
sai! Bây giờ chúng ta sẽ áp dụng phép tính BMA: 

#tìm mô hình bằng phép tính BMA 

> time <- simdata§y 

> death <- simdata$death 

> xvars <- simdata[,c(3,4,5,6,7)] 

> bma <- bic.surv(xvars, time, death) 

> summary (bma) 

> imageplot.bma (bma) 


Call: 


bic. surv. data. frame (x = xvars, surv.t = time, cens = death) 


8 models were selected 
Best 5 models (cumulative posterior probability = 0.8911 ): 


p!=0  EV SD model 1 model 2 

xi 100.0 3.036 0.509 2.9805 3.1262 

x2 9,6 0.001 0.096 . 

x3 14.6 0.041 0.15. 

x4 10.0 0.006 0.092. 

xã 31.0 0.135 0.261 . 0.42920 

nVar 1 2 

BIC ~233.714. -232.126 

post prob 0.458 0.201 
model 3 model 4 model 5 

x1 3.0390 2.9829 2.9810 

x2 s . 0.0214 

x3 0.2705. 

x4 “ 0.0250 

x5 : - 

nVar 2 2 2 

BIC -230.713 -229.933  -229.930 

Post prob 0.099 0.067 0.067 
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Kết quả phân tích BMA cho thấy mô hình tối ưu là mô hình 1 chỉ có một 
biến có ý nghĩa thống kê: đó là biến x1. Xác suất mà yếu tố này có ảnh hưởng 
đến nguy cơ tử vong là 100%. Đây chính là kết quả mà chúng ta kì vọng, bởi vì 
chúng ta đã mô phỏng chỉ có x1 có ảnh hưởng đến y mà thôi. Mô hình 2 có 
hai biến x1 và x5 (tức cũng chính là mô hình mà tiêu chuẩn AIC xác định), 
nhưng mô hình này chỉ có xác suất 0.201 mà thôi. Các mô hình 3(xi và x3), 
mô hình 4 (x1 và x4) và mô hình 5 (x1 và x2) cũng có khả năng nhưng xác 
suất quá thấp (dưới 0.1) cho nên chúng ta không thể chấp nhận được. Biểu đổ 
sau đây thể hiện các kết quả trên: 

'Models selected by BMA 


x' 


. 


x 


' 2 3 4 5 
Moáel 8 


Biểu đồ trên trình bày 8 mô hình, và trong tất cả 8 mô hình, biến xi xuất 
hiện một cách nhất quán (xác suất 100%). Còn các biến khác có ảnh hưởng 
nhưng không nhất quán. Qua so sánh giữa hai phương pháp xây dựng mô 
hình rõ ràng cho thấy cách phân tích BMA cung cấp cho chúng ta mô hình 
phù hợp đáng tin cậy nhất và có vẻ phù hợp với thực tế nhất. 

"Trên đây là những phương pháp phân tích biến cố thông dụng nhất trong 
khoa học thực nghiệm với mô hình Cox và kiểm định log-rank. Mô hình Cox 
có thể khai triển thành những mô hình phúc tạp và tính vi hơn cho các nghiên 
cứu phúc tạp khác với nhiều biến và tương tác giữa các yếu tố nguy cơ. Tài liệu 
hướng dẫn cách sử dụng package su:rv ¡va 1 có thể giúp bạn đọc tìm hiểu sâu 
hơn. Tài liệu này có tại trang web www-.cran.R-project.org. 
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phương pháp phân tích nhiều biến cùng một lúc. Trong mô hình hồi 

qui tuyến tính đơn giản hay phân tích tương quan, chúng ta có biến y 
là biến phụ thuộc, và x là biến độc lập (biến tiên lượng). Trong trường hợp đó, 
chúng ta gọi là phân tích hai biến - bivariate analysis. Nhưng trong mô hình 
hồi qui tuyến tính đa biến, chúng ta chỉ có 1 biến y, nhưng nhiều biến x, và 
trong trường hợp này, chúng ta gọi là multivariable analysis. Phân tích đa biến 
để cập đến trường hợp chúng ta có nhiều biến y. 

Có nhiều phương pháp trong nhóm phân tích đa biến, bao gồm phân tích 
phân định (discriminant analysis), phân tích phương sai đa biến (MANOVA), 
phân tích thành phần (principal component analysis), phân tích yếu tố (factor 
analysis), phân tích cụm (cluster analysis), v.v. Trong chương này, tôi chỉ giới 
thiệu 2 phương pháp phổ biến nhất, đó là phân tích thành phấn và phân tích 
cụm. Các phương pháp khác hoặc là kém thông dụng, hoặc đã được thay thế 
bởi các phương pháp hiện đại khác nên tôi sẽ không giới thiệu ở đây. 


P° tích đa biến (multivariate analysis) là thuật ngữ dùng để chỉ các 


14.1 Phân tích thành phần (Princical component analysis) 

Phân tích thành phần (principal component analysis - PCA) là một 
phương pháp phân tích đa biến để mô tả và hiểu những khác biệt, đao động qua 
ki thuật giảm số lượng biến (variable reduction). Trong thực tế, các principal 
components hay PC, tức thành phần, là những biến được tạo ra từ những biến 
gốc trong khi phân tích. 
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Giả dụ chúng ta có dữ liệu bao gốm p biến số X,, X„, X,„.., X„ PCA sử 
dụng kĩ thuật xoay toạ độ gốc để tạo nên p biến mới không có liên quan nhau. 
Các biến độc lập mới này được gọi là principal component - tôi dịch ngắn là 
thành phần. Các biến mới này có đơn vị đường thẳng được chuẩn hoá (bằng 1). 
Nói cách khác, mỗi PC là hàm số của nhiều biến: 

đIX( + aX + AaX tot GX, 
sao cho 
đề+đ) +) +...+4) =] 


Các thành phần (PC) có những đặc điểm chung như sau. Thành phần 
thứ nhất 


PRINI =&,X, + a„X,+ a,X +..t 4X, 


có độ dao động lớn nhất trong các thành phần. Thành phần thứ hai 
PRIN2 =a,,X, + a„X,+ a,X +... + 4X 


3iếp 
có độ dao động thấp hơn PRINI nhưng cao hơn các thành phần còn lại. 
PRIN2 không có tương quan với PRINI. 


Nói chung, thành phấn j*, PRIN) (j = 1, 2, 3,...., p) có độ dao động lớn 
nhất trong tất cả các thành phần còn lại, và không có liên quan đến PRINI, 
PRIN2, PRIN3,... PRIN, „. Dĩ nhiên, thành phần sau cùng, PRINp, có độ dao 
động thấp nhất. 

Mỗi thành phần (từ nay tôi sẽ gọi là PC) có trung bình và phương sai. Phương 
sai của PC có tên là eigenvalues. Các hệ số trong các PC có tên là eigenvectors. 


14.1.1 Ví dụ 1: Dữ liệu về nhiệt độ 

Dữ liệu dưới đây là nhiệt độ (E) vào tháng 1 và tháng 7 của 64 địa phương 
thuộc Mi. Một số số liệu tiêu biểu như sau: 

# Dữ liệu đọc vào là temp từ Temperature.csv 

# temp = read.csv("Temperature.csv", header=T) 

Ê temp§id = 1:nrow (temp) 


> head(temp) 

city january july id 
1 mobile 51.2 81.6 1 
2 phoenix 51.2 91.2 2 
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3 little rock 39.5 81.4 3 
4 sacramento 45.1 75.2 4 
= denver 39.8 TẠ.0. 5 
6 hart£ford 24.8 72.7 6 


Chúng ta sẽ dùng ggplot2 để xem qua đữ liệu về nhiệt độ tháng 1 và tháng 
7 cho từng thành phố: 

1ibrary (ggplot2) 

PÐ = ggplot(data=temp, aes (x=january, y=july) ) 
=p + geom point() 


+ coord fixed(ratio=1) 


P 
= p + geom text (aes(label=city), vjust=-0.5, alpha=0.25) 
P 


+ labs (title="Temperature for selected cities") 


Ø0 "0 ơØ 0Ø 0ơ@ 


Temperature for selected cities 
uxgnn^ 


mmiaImi 
` 





Ÿaul\ ste mat 


20 “0 60 
january 


Trong R, hàm pzincomp () được sử dụng cho phân tích thành phần. Một 
cách mặc định hàm princomp() tính toán trên ma trận hiệp biến (covariance 
matrix), nhưng ma trận hệ số phương sai cũng có thể dùng như là input. Các 
chỉ số thành phẩn sẽ có tên PRINI, PRIN2, PRIN3.... PRINp, và tất cả có trung. 
bình bằng 0. 

pca = princomp (~3anuary + july, data=temp) 

sunmary (pca) 


1oadings (pca) 
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> summary (pca) 
Tmportance of components: 

Comp.l  Comp.2 
Standard đeviation 12.3217642 3.0004557 
Proportion o£ Variance 0.9440228 0.0559772 
Cumulative Proportion  0.9440228 1.0000000 


> loadings (pca) 
Loadings: 

Comp.1 Comp.2 
january -0.939 0.343 


july — -0.343 -0.939 


Comp.1 Comp.2 


§S loadings 1.0 1.0 
Proportion Var 0.5 0.5 
Cumulative Var 0.5 1.0 


Dữ liệu có 2 biến, nên số PC cũng bằng 2. PRINI (R gọi là Comp.1) là 
hàm số của january và july: 


PRINI = -0.939xjanuary - 0.343xjuly 
Trọng số tháng 1 cao gần gấp 3 lấn trọng số tháng 7. Điều này hợp lí, vì 


PRINI phải tối ưu hoá dữ liệu, và nhiệt độ tháng 1 dao động rất cao so với 
nhiệt độ tháng 7. Đối với PRIN2: 


PRIN2 = 0.343xjanuary - 0.939xjuly 


Như chúng ta thấy, PRINI giải thích 94.4% dao động của dữ liệu, kế đến 
là PRIN2 (hay Comp.2) giải thích 5.6%. 

Chúng ta có thể xem qua tỉ lệ phương sai cho từng PC: 

par (m£row=c (1,2) ) 

biplot (pca) 


screeplot (pca) 
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14.1.2 Diễn giải PCA 


Dữ liệu đưới đây trích từ nghiên cứu của Jolicouer và Mosimann, theo đó, 
họ đo mai rùa của 24 con rùa. Mỗi mai rùa có 3 thông số: chiếu dài (length), 
bể rộng (width), và chiểu cao (height). 


length width height 

98 81 38 
103 84 38 
103 86 42 
105 86 42 
109 88 44 
123 92 50 
123 95 46 
133 99 51 
133 102 51 
133 102 51 
134 100 48 
136 102 49 
138 98 51 
138 99 51 
141 105 53 
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147 108 57 


149 107 55 
153 107 56 
155 115 63 
155 117 60 
158 115 62 
159 118 63 
162 124 61 
177 132 67 


Chúng ta có thể xem qua dữ liệu bằng biểu đồ: 
shell = read.table ("shell.txt", header=T) 
1ibrary (psych) 

pairs.pane1s (she11) 












































Nhi 8 
length Ls 
0.97.0.97:: 
ld lQd Nị 
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x⁄] tự || heght [ 
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Biểu đổ trên cho thấy cả 3 biến có độ tương quan cao (r = 0.97). 
Bây giờ chúng ta sẽ dùng PCA để phân tích và xem có thể giảm số biến: 
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pca = princomp(~length + width + height, data=shell 
summary (pca) 
1oadings (pca) 
Và kết quả: 
> summary (pca) 
Tmportance of components: 

Comp.1 Comp..2 Comp.3 
Standard deviation 25.4970668 2.547081962 1.653745717 
Proportion of Variance 0.9860122 0.009839832 0.004148005 
Cumulative Proportion 0.9860122 0.995851995 1.000000000 


> loadings (pca) 


Loadings: 

Comp.1 Comp.2 Comp.3 
length 0.814 0.555 -0.172 
width 0.496 -0.818 -0.291 
height 0.302 -0.151 0.941 


Comp.1 Comp.2 Comp.3 
SS loadings 1.000 1.000 1.000 
Proportion Var 0.333 0.333 0.333 


Cumulative Var 0.333 0.667 1.000 

Kết quả trên cho chúng ta 3 PC: 

PRINI =0.81xLength + 0.50xWidth + 0.30xHeight 
PRIN2 = -0.56xLength (- 0.82xWidth - 0.15xHeight) 


PRIN3 = (-0.17xLength - 0.29xWidth) + 0.94xHeight 

Khi diễn giải các thành phần, chúng ta không quá quan tâm đến hệ số 
cao hay thấp, nhưng quan tâm đến đấu của hệ số. Trong PRINI, tất cả các 
hệ số đều dương tính, và cho thấy phản ảnh một đặc điểm. Đặc điểm đó là 
gì có khi đòi hỏi tính sáng fạo trong diễn giải. Có thể nói rằng cả ba đặc tính 
length, width, và height phản ảnh kích thước - size. PRINI giải thích gần 
99% dữ liệu. 
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Thế còn PRIN2 và PRIN3 có nghĩa gì? Chúng ta chú ý hệ số width và 
height (PRIN2), và hệ số length và width (PRIN3) đếu âm tính. Theo tác giả 
Jolicouer và Mosimann, PRIN2 và PRIN3 phản ảnh hình đạng - shape. Dĩ 
nhiên, đối với tác giả khác, có thể người ta có cách diễn giải khác. 


14.2 Phân tích cụm (cluster analysis) 


Phân tích cụm là một công cụ để khai thác dữ liệu và tìm các nhóm 
có những đặc điểm giống nhau. Phân tích cụm cũng có thể ứng dụng để 
nhóm các biến có dữ liệu quan sát giống nhau. Mục tiêu của phân tích cụm. 
là xác định các nhóm dựa vào độ giống nhau (hay tương đồng). Các cụm 
được thẩm định để tìm những đặc điểm có thể giải thích sự hình thành các 
nhóm/cụm. 





_ Có nhiều thuật toán cho. phân tích cụm. Ở ‹ đây, tôi chỉ tipb trung: vào 1n 
toán đơn giản nhất và phổ biến nhất gọi là agglomerative hierarchical clustering 
method. Phương pháp này xem mỗi dòng đữ liệu (tạm gọi là observation) 
là một cụm hay nhóm. Khi hai observation giống nhau thì sẽ được cho vào. 
một nhóm, tức một cụm với hai observations. Khi các cụm còn lại có một 
observation. Các cụm sau đó được nối kết nhau một cách tuần tự cho đến khi 
chỉ còn 1 cụm. 








Ví dụ: Chúng ta có 8 observation trong dữ liệu sau đây; mỗi observation 
có 2 biến (hay 2 đặc tính), x1 và x2. Phương pháp phân tích cụm sẽ thực hiện. 
như sau: = — | 











Bước 1: mỗi observation là một cụm 


Bước 2: Xác định một cụm mới bằng cách tìm hai observations rất giống 
nhau hay gần nhau. Chúng ta còn lại 7 cụm. 


Bước 3: Tìm một cụm mới bằng cách nhóm 2 cụm gần nhau nhất hay 
giống nhau nhất. Chúng ta còn lại 6 cụm. 


Bước 4 - Bước 7: Tiếp tục qui trình nhập các cụm từng bước một. 


Bước 8: Hợp nhất hai cụm còn lại. Sau đó dùng biểu đồ cây (dendrogram) 
để tóm lược các bước hình thành cụm. 





'Rlpe/ffelun heploerg 


dat = read.table (text=" 
x1 x2 

48 

66 

10 11 

11 8 

175 

19 3 

20 11 

21 2 


", header=T) 


# Phân tích thành phần 
pca = princomp( ~ x1 + x2, data = dat) 


# Thể hiện dữ liệu gốc bằng biểu đồ 

1ibrary (ggplot2) 

Ð = ggplot(data=dat, aes(x = x1, y = x2)) 

P=P + geom point() 

P.=P † geom text(aes(label = 1:nrow(dat)), hjust = -0.5, 





alpha = 0.5) # labels 
P“Pp+ labs(title = "Vi dụ đơn giản") 

P 

# Thể hiện thành phần PC 

P ggplot (as.data. frame (pca$scores), aes(x = Comp.1, 
y = Comp.2)) 

P=P + geom point() 

P =P † geom text (aes(label = rownames (pca$scores)), 
hjust = -0.5, alpha = 0.5) 

P=bP+ labs(title = "PCA scores") 

P 
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Vidu đơn gián. 





Đây là kết quả phân tích khoảng cách (distance) mà chúng ta sẽ bàn thêm 


trong biểu đồ sau. 


# tạo ra ma trận khoảng cách giữa các điểm 
đist = dist (dat) 

hc.average = hclust(dist, method = "average") 
©p = par(no.readonly=T) 

# lưu trữ biểu đỗ gốc 

par (m£frow=c (3,2), mar=c(2, 2, 2.5, 1)) 

# margins là c(bottom, left, top, right) 
1ibrary (cluster) 

for (iclus in 7:2) ( 

clusplot (dat, cutree(hc.average, k = iclus), 
color=T, labels=2, lines=0 
cex=2, cex.txt=l, col.txt="gray20", 

main = paste(iclus, "clusters"), sub = NULL) 
} 


par (op) 
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"Thứ tự của việc phân cụm được tóm tắt trong biểu đồ dendrogram ở phía 
mặt (phần dưới). 


# tạo ma trận khoảng cách các điểm 


dist = dist (dat) 


dist 
> dist 
1 2 3 5 6 7 
2 2.828421 
3 6.708204 6.403124 
4 7.000000 5.385165 3.162278 
5 13.341664 11.045361 9.219544 6.708204 
6 15.811388 13.341664 12.041595 9.433981 2.828427 
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7 16.278821 14.866069 10.000000 9.486833 6.708204 8.062258 






























































8 18.027756 15.524175 14.212670 11.661904 5.000000 2.236068 9.055385 
op = par(no.readonly = TRUE) 
par (mfrow = c(1,3)) 
hc.single = hclust(dist, method = "single") 
plot(hc.single, hang = -1, main = "single") 
he.complete = helust(dist, method = "complete") 
Plot(he.complete, hang = -1, main = "complete") 
hc.average = hclust(dist, method = "average" 
plot(he.average, hang = -1, main = "“average") 
par (op) 
single complete average 
z4 
Ễ Ặ Ễ 
Ỹ Ỹ # .À 
































diệt diết 
hclust(*/single") hclust(*7complete") 





lÌÌ 


hclust(*7average") 


| 


'lpe/eulun heploerg 


14.2.1 Đo lường khoảng cách (distance) 

Khoảng cách giữa các cụm là một chỉ số quan trọng trong phân tích cụm. 
Có nhiếu “thước đo” giữa các cụm: (a) “Single linkage distance” là khoảng 
cách tối thiểu giữa các điểm của 2 cụm; (b) “Complete linkage distance” là 
khoảng cách tối đa giữa các điểm của 2 cụm; và (c) “Average linkage distance” 
là khoảng cách trung bình giữa các điểm của 2 cụm. Trong 3 thước đo này, 
khoảng cách giữa các điểm tính theo công thức Euclid. Biểu đồ dưới đây minh 
hoa cho 3 thước đo đó: 


Ingle lnkage cemplete iekagK. 





Compenent 
, 





+ 














Với một thước đo khoảng cách, khoảng cách giữa hai cụm được đánh giá 
ở mỗi bước. Hai cụm nào gần nhất được nhập thành một. Như chúng ta thấy, 
việc lựa chọn một thước đo khoảng cách có thể ảnh hưởng đến kết quả phân 
tích. Thước đo single linkage, vì đo khoảng cách ngắn nhất giữa các điểm của 2 
cụm, nên có thể cho ra các cụm bất thường. Thước đo complete linkage dùng 
khoảng cách xa nhất giữa các điểm nên có thể cho ra những cụm có cùng 
đường kính. Thước đo average linkage dùng khoảng cách trung bình giữa các 
điểm nên có xu hướng cho ra những cụm có cùng độ dao động. Do đó, người 
phân tích phải dùng nhiều thước đo khoảng cách để đi đến một kết quả có thể 
chấp nhận được. 

Ví dụ: Phân biệt răng của vài sinh vật 

Bảng số liệu dưới đây là kết quả của một nghiên cứu về các loại răng của 
32 động vật có vú. Các biến viết tắt có nghĩa là: 

« _ v1; số răng sữa phía trên; 

« _ v2: số răng sữa phía dưới ; 

« _ v3: số răng nanh phía trên; 

« _ v4: số răng nanh phía đưới; 


«_ v5: số răng hàm nhỏ phía trên; 
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» _ v6: số răng hàm nhỏ phía dưới; 

» - v7: số răng hàm phía trên; 

» _ v8: số răng hàm phía dưới. 

Mục tiêu của phân tích là dùng những số liệu đó để nhận dạng các động 
vật có cùng số răng qua 8 loại răng. 


mammal v1 v2 v3 v4 v5 v6 v7 v8 
Brown_Bat 3.3.1 16 8.3 3 3 
Mole 3.2 103 3 3 3 
Pigmy_Bat 3.3 1⁄43 2.'9- 13.3 
House_Bat 2 3 111233 
Red _Bat L3 d.1 9 2.9 3 
Pika 21002233 
Rabbit 21003233 
Reindeer 0 4103333 
B1k 0 4103333 
Deer 0 4003333 
Moose 0 4003333 


Chúng ta bắt đầu phân tích bằng cách đọc dữ liệu: 


teeth = read,table ("teeth.txt", header=T) 
# Tỉnh khoảng cách giữa các điểm 
đistance = đỉst (teeth[,~1]) 


iclusters=8 


# average linkage 
hc.average = hclust (distance, method = "average") 
plot (hc.average, hang=-1, main="Average linkage", 


l1abels=teeth[,1]) 


và kết quả là: 
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Average linkage. 





























Height 




































































distance 
hclust(*7average") 


14.2.2 Xác định số cụm 


Phân tích cụm có thể sử dụng để tìm số cụm tối ưu hoặc số cụm đã được 
xác định trước bằng nhiều thuật toán khác nhau. Tuy nhiên, vấn để quan trọng 
của phân tích là làm sao nhận ra số cụm trong dữ liệu. Một cách đơn giản là 
tiếp tục phân nhóm cho đến khi các cụm được nối kết với nhau và tương đối 
khác nhau. Đôi khi, kinh nghiệm với dữ liệu cũng có thể cho chúng ta một qui 
luật để ngưng phân chia. Trong R, có package NbC1ust có thể dùng cho việc 
xác định số cụm cần thiết. 


Để sử dụng NbClust chúng ta cần phải hoán chuyển các biến từ integer 
sang numeric: 

teethl = as.numeric (as.matrix(teeth[,~1])) 

1ibrary (NbClust) 


NbClust (teethl, method = "average”", index = "“all") 
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Kết quả cho thấy số cụm tối ưu có lẽ là 5: 

iX k  Y X Y  k  k k  k ki k kCE k k TK Ki TC ko kY ki X Ác kc k k k kkCk 
Among all indices: 

* 1 proposed 4 as the best number o£ clusters 


* 5 proposed 5 as the best number of clusters 


x***# Conclusion ***** 


* According to the majority rule, the best number o£ 
clusters is 5 


T1... 1...1... 1000 ì0Ô 0ì 





l 8 ° 


Number of clusters Nhmber of clusters 


° 04 
015 


016 


Dindex Values 
da 
005 


ooooooooo 


Second differences Dindex Values- 
006 


ø 
-005 


910 
D 
=. 


eoooooøoo 


0 

















2 s8 ta 2.49 68 ta 


Trong thực tế, có nhiều phương pháp thống kê để tìm số cụm. Tuy nhiên, 
không có phương pháp nào là tốt nhất. Những phương pháp để nghị sử dụng, 
các chỉ số như tiêu chuẩn cubic clustering criteria (ccc), kiểm định giống như 
F, kiểm định giống như t test, v.v. Nhiều chuyên gia đề nghị dùng tiêu chuẩn 
ccc hoặc kiểm định F tương đối cao. 
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# tính khoảng cách 
distance = dist(teeth[,-1]) 


# số clusters tối đa 
iclusters = 5 


# vẽ biểu đồ dendrogram 


he.average = hclust (đistance, 


method = "average"”) 


plot (hc.average, hang = -1, main=paste("Teeth with average 
linkage and", iclusters, "clusters"), 


labels = teeth[,1]) 


rect.hclust (hc.average, k = iclusters) 


“Teeth with average linkage and 5 clusters 













































































Height 
0 1 
————— 























HỊ 


























đistance 
hclust(f, “averager) 


Một cách khác để xem xét các cluster là dùng phân tích thành phần như sau: 


# tạo ra các thành phần PC 


clusplot (teeth, cutree (hc.average, 


color=T, labels=2, lines=0, 


cex=2, 


k = iclusters), 
cex.txt=l, 


col.txt="gray20", main= paste("Teeth PCA with average 
linkage and", iclusters, "clusters"), sub = NULL) 
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Component2. 


Ví dụ: Tỉ lệ sinh và tử vong 


“eeth PCA with average linkage and 5 clusters 














'Component 1 


Số liệu dưới đây phản ảnh tỉ lệ sinh (birth rate) và tỉ lệ tử vong của 74 
nước trên thế giới. Chúng ta muốn ứng dụng phương pháp phân tích cụm để 
nhận dạng các nước có đặc điểm giống nhau. 


country 
afghan 
algeria 
angola 
argentina 
australia 
austria 
banglades 
belguim 
vietnam 
yugoslav 


zaire 


birth death 
52 30 
50 16 
47 23 
22 10 
16 8 
12 13 
47 19 
12 12 
42 17 
18 8 
45 18 
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Chúng ta sẽ đọc dữ liệu vào R và phân tích theo trình tự được giải thích. 
qua các ví dụ trên. Trước hết chúng ta muốn xem qua dữ liệu thực tế: 





bd = read.table ("birthdeath.txt header=T) 





1ibrary (ggplet2) 
PÐ = ggplot(bd, aes(x = birth, y = death)) 
P =P + geom point(size = 2) 


P“P+† geom text (aes(label = country), hjust = -0.1, 
alpha = 0.2) 


P=P + coord fixed(ratio = 1) # makes 1 unit equal 
length on x- and y-axis 


=p + labs(title = "1976 crude birth and death rates") 
Đ 
1976 crude birth and death rates 
sủ . 
súp 
«camerstSRNNuE. 
- : 





sỉ XIều ch _ ®mexico 
j8BaEet tác ñyS(8vertez 
10 20 30 40 50 
bính. 


# Tìm số clusters tối ưu 

1ibrary (NbC1ust) 

bd1 = as.numeric (as.matrix (bd[,~1])) 

nclusters = NbClust (bdl, method="complete", index="a11") 
#số clusters tối ưu là 2 


PK HA«AAAAHANNNNNNNNNY 
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* Among all indices: 


* 2 proposed 2 as the best number 


* 1 proposed 4 as the best nunber 


1 proposed 5 as the best number 
* 1 proposed 6 as the best nunber 
3 


of clusters 
©f clusters 
of clusters 


of clusters 


proposed 15 as the best number of clusters 


***** Conclusion ***** 


* According to the majority rule, 


clusters is 2 


the best number o£ 
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24 68 10121 


Number of clusters 


2468 101214 


Nữmber of clusters 


Nhưng biểu đồ trên cũng gợi ý số cụm có thể là 3. Chúng ta thử dùng biểu 
đổ dendrogram để thấy thêm: 


distance = dist (bd[,-1]) 


iclusters = 3 


hc.complete = hclust(đistance, me 


plot (hc.complete, hang=-1l, mai: 


rect.hclust (hc.complete, 





k=iclust‹ 





thođ = "complete") 


Countries with complete 
linkage", iclusters, 1abels=bd[,1] 


ers) 
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'Countries with complete linkage. 
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đang 
hclust(*, *complete") 
clusplot (bd, cutree(hc.complete, k = iclusters), 





color=T, labels=2, lines=0, cex=2, cex.txt=l, 
col.txt="gray20", main= paste ("Birth/Death with complete 


linkage", iclusters, "clusters"), sub = NULL) 


Birth/Death wuïth complete linkage 3 clusters 
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# thêm một biễn về số cụm 
bd§clusters = factor (cutree(hc.complete, k=iclusters)) 


đồ với dữ liệu gốc + phân chia theo cụm 


1ibrary (ggplot2) 


PÐ = ggplot (bd, aes(x=birth, y=death, colour=clusters, 
shape=clusters) ) 


P.=P + geom point(size = 2) 
P =P + geom text (aes(label=country), hjust=-0.1, alpha=0.2) 
PÐ =bp+ coord fixed(ratio = 1) 


P=P+† labs(title = "1976 crude birth and đeath rates, 
complete linkage") 


print (p) 
'1976 crude birth and death rates, complete linkage. 


M 





10 20 30 40 50 
bình. 


Bây giờ, như là để so sánh, chúng ta sẽ dùng thước đo “single linkage”. 
# Tìm số cụm tối ưu 


bả2 = as.numeric (as.matrix (bả[„~1])) 
nclusters = NbClust(bd2, method = "single", index = "al1") 


'ết quả là số cụm tối ưu = 6, nhưng để so sánh, chúng ta chọn số cụm là 3. 
iclusters = 3 

# Vẽ biểu đồ dendrogram dựa vào single linkage method. 
distance = dist(bd[,-1]) 

hc.single = hclust(distance, method = "single")} 

plot (hc.single, hang=-1, main=paste("Birth/Death o£ 74 
countries, single linkage and", iclusters, "clusters"), 
1abels = bd[,1]) 

rect.hclust (hc.single, k = iclusters) 


Birth/Death of 74 countries, single linkage and 3 clusters 


=. 
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distance 
hdust(*5ingle") 
# vẽ biểu đồ phân tích thành phần (PCA) 
clusplot (bd, cutree(hc.single, k=iclusters), color=T, 
labels=2, lines=0, cex=2, cex.txt=l, col.txt= “gray20", 
main=paste ("Birth/Death PCA with single linkage and”, 
iclusters, "clusters"), sub = NULL) 





'lpe/eulunheploerg 











„1| /^2 
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W vẽ dữ liệu gốc với 3 cụm 
clusters = factor(cutree(hc.single, k=iclusters)) 
1ibrary (ggplot2) 


P “ ggplot(bd, aes(x=birth, y“death, colour= clusters, 
shape~clusters) ) 

P=P* geom point(size = 2) 

P“P+ đồn RÁC (ĨNH DA EU “ country), hjust = -0.1, 
alpha = Õ.2) 

P*P c€oord_fixed(ratio = 1) 


labs (title = "1976 crude birth and death rates, 


+ 
` me „Âu: 
single linkage") 


print (p1) 
1976 cruđe birth and death rates,single linkage 


30- š 





Như chúng ta thấy kết quả của phương pháp single linkage và complete 
linkage rất khác nhau. Có thể số cụm thì giống nhau (3), nhưng thành phần 
trong cụm thì rất khác nhau. 
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__ 2È, À. 


Mô hình ảnh hưởng hỗn hợp 
(mixed-effects model) 








study, hay nghiên cứu theo thời gian. Trong mô hình nghiên cứu 

theo thời gian, các đối tượng nghiên cứu được theo dõi theo thời 
gian để đánh giá hiệu quả của một thuật can thiệp. Chẳng hạn như hai nhóm 
bệnh nhân được điểu trị bằng hai loại thuốc, và mỗi bệnh nhân được đo nồng 
độ glucose mỗi 6 tháng. Vấn để đặt ra là làm thế nào để đánh giá hiệu quả của 
can thiệp một cách có hệ thống. Chúng ta không thể dùng t-test cho 6 thời 
điểm, vì làm như thế là gặp vấn để kiểm định nhiều giả thuyết. Vả lại, mỗi 
bệnh nhân được đo lường nhiều lần, và các giá trị phải có liên quan nhau; do. 
đó, kiểm định nhiều giả thuyết mà không xem xét đến sự tương quan trong 
mỗi cá nhân là một sai lấm nghiêm trọng. 

Chương này sẽ hướng dẫn cách phân tích số liệu để kiểm định giả thuyết 
về ảnh hưởng của thuốc bằng một mö hình thống kê được xem là “chuẩn 
vàng” hiện nay: đó là mô hình zmixed-effects mà tôi tạm dịch là “mô hình ảnh 
hưởng hỗn hợp”. Phân tích bằng mô hình này cần có máy tính và chương trình 
phân tích thống kê. Tôi sẽ sử dụng phần mềm R để phân tích, và sẽ trình bày 
các mã trong bài để bạn đọc dễ dàng theo dõi. 


M: trong những mô hình nghiên cứu phổ biến có tên là prospective 


15.1 Phân biệt ñxed effect và random effect 

Một trong những khó khăn của người mới học thống kê và thí nghiệm là 
khái niệm ñxed effects (có lẽ dịch là ảnh hưởng cố định) và random effects (ảnh: 
hưởng ngẫu nhiên). Sách giáo khoa cũng không giải thích rõ ràng, một phần 
vì tác giả không xem đó là quan trọng, một phần vì... khó hiểu. Tuy nhiên, để 
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sử dụng R (đặc biệt là package lme4) thì chúng ta cẩn phải phân biệt hai khái 
niệm trên. Trong phần này, tôi sẽ giải thích fixed effects và random effects qua 
một số ví dụ cụ thể. 


Phân tích phương sai 1 chiều (one-way analysis of variance) 

Số liệu đưới đây là điểm cho 3 nhóm vận động viên. Nhóm 1 gồm 10 
người, nhóm hai gồm 6 người, và nhóm 3 có 9 người. Mục tiêu là kiểm định 
giả thuyết ba nhóm này có cùng điểm. Phương pháp kiểm định mà chúng ta 
nghĩ đến là phân tích phương sai (ANOVA), với hàm lm(Score ~ Group) như 
đã giới thiệu trong Chương 11. 































































































ID GROUP. SCORE. 
1 1 3 
2 1 13 
3 1 13 
4 1 8 
5 1 1 
6 1 9 
7 1 12 
8 1 7 
9 1 16 
10 1 15 
11 2 18 
12 2 6 
13 2 21 
14 2 34 
15 2 26 
16 2 1 
17 3 24 
18 3 14 
19 3 21 
20 3 5 
21 3 17 
2 3 17 
23 3 23 
24 3 19 
25 3 7 
Mô hình trung bình 


Trong mô hình phân tích phương sai, bằng ngôn ngữ của mô hình tuyến. 
tính, chúng ta có thể phát biểu rằng: Gọi Score của đối tượng ¿ (¡ = 1, 2, 3, ..., 25) 
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và nhóm ƒ là Y,. Chúng ta nghĩ rằng những dao động vể Y, được xác định bởi 
giá trị trung bình của mỗi nhóm (tạm gọi là 8,), với j = 1, 2, 3, cộng với một sai 
số ngẫu nhiên kí hiệu là e,. Nói cách khác, chúng ta có: 


Y=B+s, I1 





Trong đó, tụ~ N(0, ø?). Nói cách khác $ giả định tuân theo luật phân bố 
chuẩn với trung bình 0 và phương sai ơ?. Có thể hiểu mô hình này bằng cách 
trình bày lại bảng số liệu trên như sau: 










































































QUAN SÁT MÔ HÌNH HOÁ. 
=) GROUP | SCORE B, q 
1 1 3 B, £ụ 
2 1 13 B, E 
3 1 13 B, H 
8 1 7 B, s 
9 1 16 B, B 
10 1 15 B, c 
"1 2 18 B, s 
12 2 6 B, my 
13 2 2 B, PP 
14 2 34 B, _ 
15 2 26 B, rP 
16 2 Hi B, EN 
17 3 24 B, EN 
18 3 14 B, N 
19 3 21 B, H 
20 3 5 B, EN 
25 3 7 B, K 














Ở mức độ nhóm, chúng ta mô hình rằng những khác biệt giữa các cá 
nhân trong nhóm bằng giá trị trung bình u,„ cộng với các khác biệt ngẫu nhiên 
(kí hiệu là tỤ) chung quanh giá trị trung bình: 


B,= My + My BỊ 
Trong đó, độ = N(0, +). Thay thế [2] vào [1]: 
bổ =Mg+ ứ“, + s) lãI] 
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Theo mô hình trên, k là một fixeđ efect vì là một thông số. Còn (w,„ + e,) 


được gọi là random efjects vì phản ảnh phương sai. 


Hàm 1mer (linear mixed effect regression) trong package 1me4 rất có 


ích trong việc ước tính các thông số của mô hình trên. Hàm Imer có hai phần 
chính: ñxed efects và random effects (trong ngoặc). Do đó, để hiểu và sử dụng. 
lImer, chúng ta cần phải viết xuống mô hình phân tích. Chúng ta sẽ tạo ra một. 
đataframe có tên là test như sau: 


Score = c(3, 13, 13, 8, 11, 9, 12, 7, 16, 15, 18, 6, 21, 
34, 26, 11, 24, 14, 21, 5, 17, 17, 23, 19, 7) 

Group = c(rep("1", 10), rep("2", 6), rep("3", 9)) 

test = data.frame (Group, Score) 

Để ước tính các thông số của mô hình [3], chúng ta dùng lmer như sau: 


1ibrary (1me4) 
ft = 1mer(Score ~ 1 + (1 | Group), data=test, REML=0) 


summary (fit) 


Trong hàm trên số “1” chỉ intercept, tức mô hình đơn giản nhất, chỉ có số 


trung bình cho toàn bộ quần thể. Phần random effects, (1 | Group) phản ảnh 


u„ trong mỗi nhóm. 








Đối chiếu với mô hình Y, = wụ, + (w,„ + £,), chúng ta thấy ước số của ụ,= 15.2. 


Phương sai giữa các nhóm là x„ = 7.08, và phương sai giữa các cá nhân là ơ? = 45.8, 





Mô hình ảnh hưởng nhóm 
Với mô hình mới, chúng ta cho rằng điểm của mỗi cá nhân Y, là hàm số 
của intercept (t,) + trung bình của mỗi nhóm (B,) + sai số ngẫu nhiên. Nói 
cách khác, mô hình mới là: 
Yy= tụ + B, + ếy lo) 
Với e,~ N(0, ø`). Trong đó, trung bình của mỗi nhóm. ÿ, là hàm số của 
trung bình thật của nhóm và sai số ngẫu nhiên. 
B,=,+ nụ, I5] 
Với w„ ~ N(O, tụ). Thay [5] vào [4] chúng ta có mô hình: 
Y,= Mạ + q,+ („+ 8.) 
Chúng ta dùng hàm Imer cho mô hình trên như sau: 


fitl = 1mer(Score ~ 1 + Group + (1 | Group), data=test, 
REML=0) 


suntnary (fit1) 





Mô hình trên cho thấy so sánh với nhóm 1 điểm của nhóm 2 cao hơn 8.6 
điểm, và nhóm 3 cao hơn 5.6 điểm, nhưng sự khác biệt đều không có ý nghĩa 
thống kê. Chú ý residual (tức ø?) giảm từ 45.8 xuống còn 40.3. 





15.2 Mô hình ảnh hưởng hỗn hợp cho nghiên cứu theo thời gian. 

Bảng số liệu dưới đây trình bày kết quả của một thí nghiệm trên chuột. 
Nghiên cứu có 19 con chuột, được chia thành 2 nhóm: nhóm thứ nhất được 
cho uống thuốc (n = 9 con chuột) và nhóm thứ hai là nhóm chứng (không 
uống thuốc, gồm 10 con chuột). 'Ở mỗi con chuột, nồng độ đường trong máu 
(glucose) được đo tại 4 thời điểm: trước khi uống thuốc (T0), 2 giờ, 3 giờ, và 
4 giờ sau khi uống thuốc (tạm kí hiệu T2, T3 và T4). Mô hình nghiên cứu này 
có khi được để cập đến dưới cái tên repeated measure design. Kết quả của thí 


nghiệm như sau: 


Bảng 1. Nồng đồ glucose trong máu của chuột qua 4 thời điểm 




































































TREATMENT 1D Tô Tả T3 T4 
Test 1 s9 39 39 36 
Test 2 s3 47 35 32 
Test 3 46 37 33 32 
Test 4 62 46 43 39 
Test s 60 s4 s2 48 
Test L} 64 47 48 43 
Test 7 76 41 38 41 
Test 8 s9 31 36 33 
Test 9 75 61 54 46 
Control 10 62 s3 49 45 
Control 1 69 56 s9 s9 
Control 12 56 4.7 46 40 
Control 13 sỊ 39 29 29 
Control 14 57 47 43 46 
Control 15 s0 40 35 33 
Control 16 s2 42 40 38 
€Control 17 77 62 61 s7 
€Control 18 80 s8 65 60 
Control 19 77 s0 63 62 
Chú thích: ¡d là cột chỉ mã số của chuột. 











Chúng ta thấy nống độ đường (sẽ gọi là glucose) ở cả hai nhóm có xu 
hướng giảm theo thời gian. Câu hỏi chính là thuốc có ảnh hưởng đến sự thuyên 
giảm glucose hay không? Cụm từ “ảnh hưởng” ở đây có thể hiểu rõ hơn: nó 
chính là sự khác biệt (difference) về mức độ giảm gÌucose giữa hai nhóm chuột. 
'Vì thế, câu hỏi trên có thể diễn giải một cách định lượng như sau: mức độ giảm. 
glucose ở nhóm uống thuốc cao (hay thấp) hơn nhóm chứng hay không? 
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Thẩm ¡nh số liệu 

Chúng ta cần một mô hình để mô tả mức độ giảm cho mỗi con chuột. Hãy 
xem xét chuột số 1 (¡d = 1) với các số liệu sau đây (gọi T là thời điểm): 

« _ Trước khi uống thuốc (T = 0) thì glucose = 5.9 mmol/L 

+ _ Saukhiuống thuốc 2 giờ (T =2), glucose giảm xuống 3.9 (tức giảm 33%) 

« _ Sau khi uống thuốc 3 giờ (T = 3), glucose vẫn ở 3.9 (tức giảm 33%) 

« _ Sau khi uống thuốc 4 giờ (T = 4), glucose giảm thêm một chút 3.5 (tức 

giảm 41%) 

Nhưng đối với chuột có id = 9 thì nồng độ glucose lúc đấu cao hơn (9 
mmol/L), và giảm liên tục đến thời điểm 4 giờ sau khi uống thuốc còn 4.6 
mmol/L, tức giảm 49%. Chúng ta có thể xem xét qua sự thay đổi nồng độ 
glucose cho từng chuột bằng biểu đố 1 sau đây: 


# nhập số liệu glucose và gọi tên biến của là y: 

y"c(5.9, 3.9, 3.9, 3.6, 5.3, 4.7, 3.5, 3.2, 4.6, 3.7, 
3.3, 3.2, 6.2, 4.6, 4.3, 3.9, 6.0, 5.4, 5.2, 4.8, 
6.4, 4.7, 4.8, 4.3, 7.6, 4.1, 3.8, 4.1, 5.9, 3,1, 
3.6, 3.3, 7.5, 6.1, 5.4, 4.6, 6.2, 5.3, 4.9, 4.5, 
6.9, 5.6, 5.9, 5.9, 5.6, 4.7, 4.6, 4.0, 5.1, 3.9, 
2.9, 2.9, 5.17, 4.7, 4.3, 4.6, 5.0, 4.0, 3.5, 3.3, 
5.2, 4.2, 4.0, 3.8, 7.7, 6.2, 6.1, 5.7, 8.0, 5.8, 
6.5, 6.0, 7.7, 5.0, 6.3, 6.2) 


# 3 lệnh sau đây thực hiện 3 việc: 

# tạo biễn số id 

# tạo biên số time có giá trị 0,2,3,4 lặp lại 19 lân 
# tạo biễn số treatment 

id = rep(1:19, each=4) 

time = rep(c(0,2,3,4), 19) 

treatment = rep(1:2, c(9*4, 10*4)) 

glucose = data.frame(id,treatment, time ,y) 
1ibrary (rms) 

1ibrary (lattice) 

1ibrary (1me4) 

W Vẽ biểu đồ cho từng con chuột 


kxyplot(y ~ time | id, |type=c(”p", ®r")j as.table=time, 
xlab="Time", ylab="Gllùcose") | 
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Biểu đồ 1. Nồng độ glucose cho từng con chuột qua từng thời điểm. 


Xem xét qua hai trường hợp trên và biểu đồ 1 cho chúng ta thấy hai điểm 
đáng chú ý: thứ nhất nồng độ glucose lúc ban đấu (baseline) khác nhau giữa các 
chuột; và thứ hai, tốc độ (rate) giảm glucose cũng khác nhau giữa các chuột. 
Chúng ta cần một số kí hiệu để bàn luận về mô hình: 

« _ ¡là mã số định danh của chuột 1 đến 19 (¡ = 1, 2, 3,..., 19); 

5 _ y,là nồng độ glucose đo lường được cho chuột ï; 

» _a,là nồng độ glucose trước khi uống thuốc của chuột ¡; 

«_ b,là tốc độ giảm glucose của chuột í. 

« _ Tốc độ giảm glucose tùy thuộc vào thời gian và thời gian time có thể 

tạm kí hiệu bằng T. Ở đây T = 0, 2, 3, và 4. 

Chúng ta có thể hình dung ra một mô hình để mô tả sự thay đổi nồng độ 

glucose ở từng con chuột như sau: 


,=4,+bT 
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Mô hình trên phát biểu rằng giá trị glucose đo lường của từng chuột được 
xác định bằng giá trị lúc ban đấu (chưa can thiệp) và tốc độ thay đổi theo thời 
gian T. Nhưng ở đây, chúng ta chỉ đo lường nồng độ glucose qua 4 thời điểm, 
và mỗi lần đo lường đều có độ nhiễu (tức không hoàn toàn chính xác, do kĩ 
thuật đo lường hay do sự dao động sinh học ở mỗi chuột mà chúng ta chưa 
biết), cho nên chúng ta cẩn thêm một thông số khác để cho mõ hình hoàn 
chỉnh hơn. Thông số đó là độ nhiễu và tạm kí hiệu bằng e„ Bây giờ thì mô hình. 
trên trở thành: 


V,=4,+bT+e, I"] 
Đây là mô hình hối qui tuyến tính (linear regression model) mà có lẻ các 


bạn đã từng biết qua. Đối với chuột id = 1, chúng ta có thể ước tính thông số 
a và b trên bằng lệnh R như sau: 


time = c(0, 2, 3, 4) 
y= c(5.9, 3.9, 3.9, 3.6) 
summary (m(y ~ time)) 


> summary (lm(y ~ time) ) 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 5.6171 0.4467 12.574 0.00627 ** 
time ~0.5743 0.1659 -3.461 0.07428. 


Do đó, a, = 5.6 và b, = -0.57. Nói cách khác ước số nồng độ glucose lúc 
ban đầu của chuột 1 là 5.6 mmol/L, và giảm khoảng 0.57 mmol/L mỗi giờ (60 
phút) sau khi uống thuốc. Phân tích tương tự chúng ta sẽ có ước số cho chuột 
số 9 là: 4, = 7.52 và b, = -0.72. 

time = c(0, 2, 3, 4) 

Y=c(1.5, 6.1, 5.4, 4.6) 


sumnary(1m(y ~ time)) 


> summary(1m(y ~ time)) 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 7.52000 0.04071 184.73 2.93e-05 *** 
time ~0.72000 0.01512 -47.62 0.000441 *** 
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Biểu đổ 2 sau đây cho chúng ta thấy sự dao động của nồng độ glucose lúc 
ban đầu cũng như tốc độ thay đổi glucose theo thời gian giữa các chuột: 


fit = by(glucose, id, 
function (đata) fitted.values(Im(y ~ time, data=data) )) 
fit = unlist (it) 

names (fit) = NULL 


interaction.plot (time, id, fit, xlab="Time", ylab="Glucose") 


Glucose 











Biểu đồ 2. Sự dao động về nồng độ glucose cho từng chuột giữa các thời điểm. 


Chúng ta thấy rằng thông số a,„ b, là hai thông số chúng ta quan tâm. 
Nên nhớ rằng hai thông số này đao động giữa các chuột, cho nên chúng ta 
cần kí hiệu ¡ để nhắc nhở. Nếu chuột trong nghiên cứu được phân nhóm một 
cách ngẫu nhiên, chúng ta kì vọng rằng nồng độ trung bình lúc ban đầu (tức 
trung bình a,) giữa hai nhóm sẽ không khác nhau, và ảnh hưởng của thuốc 
chủ yếu được phản ảnh qua tốc độ tăng glucose giữa hai nhóm (tức trung. 
bình b,). 

— 316. 
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Chúng ta thử kiểm định sự khác biệt giữa hai nhóm bảng phương pháp 
kiểm định t (qua R) như sau 
y=c(5.9, 5.3, 4.6, 6.2, 6.0, 6.4, 7.6, 5.9, 7.5, 
6.2, ¡6.9 5⁄6, S.1¿ 5.7, 5.0, 5.2, 1:7, (840, 1.7) 


treatment = rep(c(1,0), c(9,10)) 


# lệnh trên tạo ra biễn số treatment với 2 giá trị 0 để chỉ 
nhóm chứng gồm 10 chuột, và 1 để chỉ nhóm thuốc gồm 9 chuột. 








E,t€SE(y ~ treatment} 


Chúng ta thấy qua kết quả trên rằng nồng độ glucose lúc ban đầu trong 
nhóm chứng là 6.31 và nhóm điểu trị là 6.16, và độ khác biệt này không có ý. 
nghĩa thống kê (P = 0.7556). 


15.3 Mô hình tăng trưởng không điều kiện 
(unconditional linear growth) 

Mô hình đơn giản nhất là mô tả tăng trưởng của từng cá nhân, còn gọi là 
wnconditional growth model. Xin nhắc lại, qua mô hình [1] chúng ta phát biểu 
rằng nồng độ glucose ở mỗi chuột ¡ ở một thời điểm T là kết quả của 3 giá trị: 
(a) nồng độ glucose lúc ban đầu (baseline glucose); (b) tỉ lệ thay đổi tùy theo 
thời gian T; và (c) giá trị nhiễu do đo lưởng và do đao động sinh học mà chúng, 
ta không giải thích được (e): : 


,=4,+BT+e, 


Theo mô hình này: n‹ led. 1,2, 3, ... 19 và số liệu ước 


tính (quan sát) được là: | 
ca —— 
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y,=a,+b,T+e, Y,=5.62~057T+e, 
Y,=4,+b,T+e, y,=5.42-055T+e, 
Y,=đ,+b,T+e, y,=452-037T+e, 
Yy=4„+b,T+e, y„=707~034T+ 





Quan sát mỏ hình trên chúng ta thấy nống độ glucose lúc ban đấu đao 
đông trong khoảng 5 đến 8 mmol/L, nhưng chúng ta không biết số thật là bao. 
nhiêu. Do đó, chúng ta có thể giả định bằng một mô hình đơn giản rằng nồng 
độ glucose lúc ban đầu giữa các chuột bằng một số trung bình cộng (hay trừ) 
độ khác biệt giữa các chuột với số trung bình đó. Gọi số trung bình là A, và w 
là độ khác biệt của a, so với A, chúng ta có: 


a=A*+u 2l 


Bởi vì tốc độ biến đổi (giảm) glucose cũng dao động giữa các chuột, do. 
đó chúng ta cũng có thể giả định rằng tốc độ trung bình là B, và độ khác biệt 
giữa b là B là v: 


b=B+v l3] 
Thay thế [2] và [3] vào phương trình [1] chúng ta có (tôi viết lại phương 
trình 1 để dễ theo đõi): 
,=4,+bT+ẻ, ID) 


y,=(A+w)+(B+v)T+e, 
Sắp xếp lại phương trình trên cho gọn, chúng ta có: 
y,=(A + BT) +(u + vT+ e) {4] 


Thấy gì qua phương trình trên? Phương trình có 2 phần: phần đấu, 
(A + BT), là phần mà giới thống kê học gọi là “ñxed efects” (ảnh hưởng cố 
định - thuật ngữ không mấy chính xác nhưng chúng ta tạm hiểu là ảnh hưởng 
không ngẫu nhiên); phần hai, (w + v7 + e,, là phần “random effects” (ảnh 
hưởng ngẫu nhiên). Sở đĩ gọi ảnh hưởng ngẫu nhiên là vì w, v và e đều là các 
thông số phản ảnh độ nhiễu (noise) của mô hình. Các thông số trong phương. 
trình này có ý nghĩa như sau: 
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« _A là nồng độ glucose trung bình lúc ban đấu (trước khi uống thuốc) 
của quần thể các chuột được nghiên cứu; 
« _Blà tốc độ trung bình (tỉ lệ giảm nồng đô glucose) tính trên mỗi giờ 
của các chuột trong nghiên cứu; 
« _ wphản ảnh độ dao động về nồng độ glucose lúc ban đầu giữa các chuột; 
«_ vcho chúng ta biết độ dao động về tốc độ giảm gÌucose giữa các chuột; và 
« __e là độ đao động ở mỗi chuột. 
Mô hình sinh học nào cũng có giả định. Trong mô hình [4] trên, chúng 
ta giả định rằng: 
« _ư tuân theo luật phân phối chuẩn (normal distribution) với số trung 
bình bằng 0 và phương sai #. Viết theo kí hiệu thống kê học là: 
w~ N(0, 1È). 
« _ v tuân theo luật phân phối chuấn (normal distribution) với số trung 
bình bằng 0 và phương sai v3, hay v ~ Ấ(0, v`). 
« _e, cũng theo luật phân phối tương tự: e, ~ \(0, e`) 
“Tại sao 0? Tại vì chúng ta giả định rằng tính trung bình, các độ nhiễu bằng 
0 để giá trị trung bình (expected value hay giá trị kì vọng) của mô hình [4] là 
(kí hiệu E có nghĩa là expecfed, hay nói nôm na là “tính trung bình”): 
E0) = (A + BT) + (0 +0T+0) 
EQ) =A + BT 
Chúng ta sẽ triển khai và ước tính các thông số trong mô hình [4] bằng R. 
Nhắc lại, mô hình [4]. Trước hết, chúng ta đọc đữ liệu glucose và tạo ra một 
dataframe tạm gọi là glucose: 








Y= c(5.9, 3.9, 3.9, 3.6, 5.3, 4.7, 3.5, 3.2, 4.6, 3.7, 
3.3, 3.2, 6.2, 4.6, 4.3, 3.9, 6.0, 5.4, 5.2, 4.8, 
6.4, 4.7, 4.8, 4.3, 7.6, 4.1, 3.8, 4.1, 5.9, 3.1, 
3.6, 3.3, 1.5, 6.1, 5.4, 4.6, 6.2, 5.3, 4.9, 4.5, 
6.9, 5.6, 5.9, 5.9, 5.6, 4.7, 4.6, 4.0, 5.1, 3.9, 
2.9, 2.9, 5.T, 4.7, 4.3, 4.6, 5.0, 4.0, 3.5, 3.3, 
5.2, 4.2, 4.0, 3.8, 1.7, 6.2, 6.1, 5.7, 8.0, 5.8, 
6.5, 6.0, 7.7, 5.0, 6.3, 6.2) 


id = rep(1:19, each=4) 

time = rep(c(0,2,3,4), 19) 

treatment = rep(1:2, c(9*4, 10*4)) 

glucose = data.frame(id,treatment, time ,y) 
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Đối với mô hình [4], 
y,= (A + BT) +(u + vT + e) 
các mã R sau đây có thể sử dụng để phân tích: 


1ibrary (me4) 

fitl = lmer(y ~ 1 + time + (1 + time | id), đata=glucose, 

REML=0) 

summary (fit1) 

Chú ý hàm lmer được mô phỏng theo cách viết 2 phần: phần đấu là ñxed 
effects, và phấn 2 (trong ngoặc) là random effects. Khi viết “1 + time” chúng 
ta có thể hiểu đó là “intercept + time” (hay A + B*“time). Kết quả của mô hình. 
này như sau: 





Chú ý kết quả được chia thành 3 phần: phần random effects, phần ñxed. 
effects, và phấn tương quan giữa các thông số ñixed effects. 


Chúng ta tập trung vào phần ñxed effects trước. Ước số time = ~0.485 
chính là B trong phần BT của mô hình trên. Ngoài ra, intereept = 6.05 
chính là ước số của A trong mô hình trên. Nói cách khác, mô hình [4] bây giờ 
là (phần ñxed effects): 








Mô hình này cho biết nống độ glucose trưng bình của quần thể là 6.05 
mmol/L và tốc độ giảm 0.485 mmol/L sau mỗi giờ theo dõi. 


Tuy nhiên, đó chỉ là phấn ñxed effects; chúng ta còn một phần random. 
effects, và R cung cấp các kết quả: | 


Random effects: 


Groups  Name Variance Std.Dev. Corr 
iđ (Intercept) 0.6581762 0.8113 

time 0.0007453 0.0273 1.00 
Residual 0.2481143 0.4981 


Các kết quả trên đây có thể diễn giải như sau (theo mô hình [4]): 

« _ Phương sai v`= 0.658 (tức var(intercept) = 0.658) phản ảnh 
độ dao động về nồng độ glucose lúc ban đầu (trước khi can thiệp) giữa 
các chuột. Như chúng ta có thể đoán được, có sự khác biệt giữa các 
chuột về nồng độ glucose, nên chúng ta không ngạc nhiên khi thấy 
khoảng tin cậy 95% có ý nghĩa thống kê; 

«_ Phương sai wÈ = 0.00075 (tức var (time) = 0.00075) phản ảnh độ 
đao động về tốc độ giảm gÌucose giữa các chuột. Như có thể thấy qua 
ước số này, độ dao động về tốc độ không khác nhau đáng kể giữa chuột; 

Dòng Residual = 0.248 (chính là ước số của e° = 0.248), phản ảnh. 
độ dao động nống độ glucose ở mỗi chuột. 


15.4 Mô hình ảnh hưởng của điều trị (conditional growth model) 


Chúng ta để ý thấy trong mô hình [4] không có biến số nào liên quan đến. 
điểu trị! Đó là vì mô hình căn bản. Bây giờ chúng ta thử xem qua lí giải trong, 
phương trình [2] và [3]: 








a=Ä*+w 
b=B+v 
Chúng ta muốn có khác biệt đáng kể về nồng độ glucose lúc ban đấu (a) 
giữa hai nhóm chuột, do đó phương trình [2] trở thành: 
đ,=A, + A, x treatment + 


Ngoài ra, có thể có sự khác biệt về tốc đô giảm glucose giữa hai nhóm (b,), 
và chúng ta cẩn tìm hiểu mức độ khác biệt hay ảnh hưởng này. Một cách để 
biết ảnh hưởng của điểu trị là viết lại phương trình [3] thành: 


b,= B, + B, x treatment + v 
Do đó, mô hình [1] trở thành: 
y,=4/+B7+«, [1] 
y,= (A, + A,x treatment + w) + (B, + B, x treatment + v)T + e, 


y,= (A, + Astreatment + B,T + B,-treatment‹T) + (w+ vT+e) [5] 
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Đây là mô hình chính của nghiên cứu. Trong mô hình trên, ngoài các 
thông số khác đã giải thích, chúng ta thấy có hai thông số mới và ý nghĩa của. 
2 thông số này như sau: 

+ _4,xtreatment phản ảnh sự khác biệt nồng độ glucose lúc ban đầu giữa 

hai nhóm chuột; 

+ -B,xtreatmentz T phản ảnh mức độ khác biệt về tốc độ giảm glucose 
giữa hai nhóm chuột; do đó, chính là kiểm định thống kê cho giả thuyết 
của nghiên cứu. 

Bây giờ, chúng ta sẽ dùng lme4 để ước tính các thông số trong mô hình [5]. 


fit2 = lmer(y ~ 1 + treatment + time + tỉme:treatment + 
(1+time|id), data=glucose, REML=0) 


summary (fít2) 
Kết quả như sau: 





Đối chiếu với mô hình [5], các thông số trên như sau: 





Nồng độ trung bình glucose lúc ban đầu của quần thể 
Khác biệt về nồng đô glucose lúc ban đầu giữa hai nhóm 
Ảnh hưởng của thời gian (time) đến sự giảm glucose. 
Khác biệt về tốc độ giảm glucose giữa hai nhóm 
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Do đó, mô hình [5] trở thành: 
y,= 5.82 + 0.15 x treatment - 0.74 x time + 0.17 x treatment x time 


Nên nhớ rằng chúng ta gọi treatment = 1 chỉ thuốc và treatment = 2 chỉ 
nhóm chứng, và time có 4 giá trị: 0, 2, 3, và 4. Cho nên, mô hình mô tả sự dao. 
động của glucose trong nhóm được điểu trị bằng thuốc là: 


y, = 5.82 + 0.15 x 1 ~ 0.74x time + 0.17 x 1 x time 
, = 5.97 ~ 0.57 x time 
và cho nhóm chứng là: 
y;= 5.82 + 0.15 x2 ~ 0.74x tỉme + 0.17 x 2 x time 
y,= 6.12 ~ 0.40x time 


Như vậy, hai nhóm có nống độ glucose khởi đấu giống nhau (5.97 và 6.12 
và P = 0.74), nhưng tốc độ giảm glucose của nhóm thuốc là 0.57 mmol/L/giờ, 
cao hơn nhóm chứng 0.40 mmol/L/giờ, và sự khác biệt này có ý nghĩa thống 
kê (P = 0.027). Do đó, qua kết quả này, chúng ta có thể kết luận rằng thuốc có 
hiệu quả giảm glucose cao hơn nhóm không được điểu trị. 


“Thông số B, (tức tốc độ trung bình giảm glucose của quần thể) không có 
ý nghĩa ở đây, bởi vì có sự tương tác giữa hai nhóm và thời gian. 


Bây giờ chúng ta thử xét qua phần random effects: 








Chúng ta có thể so sánh các thông số trong mô hình này với mô hình. 
trước như sau: 





tử: độ dao động về tốc độ giảm glucose giữa các chuột 000075 00000051 





v`: độ dao đông về nồng độ glucose lúc ban đầu 0658 0687 





e°: độ dao đông nồng độ glucose ở mỗi chuột 0248 0230 
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Chúng ta chú ý trong so sánh trên, mô hình [4] có 2 thông số cố định, 
nhưng mô hình [5] có 4 thông số cố định. Do đó, chúng ta không ngạc nhiên 
khi mô hình [5] tốt hơn mô hình [4]. Sự “tốt hơn” đó có thể thấy qua e?, giảm 
từ 0.248 xuống 0.230 hay giảm 6%. Một sự giảm thiểu khiêm tốn nhưng vẫn 
có ý nghĩa. 


Tóm lại 


Các phân tích trên đây cho thấy thuốc có hiệu quả giảm nồng độ glucose. 
trong máu. Mức độ giảm glucose tăng theo thời gian và có ý nghĩa thống kê, 
dù mức độ ảnh hưởng có phần khiêm tốn. 

Trong quá khứ, chúng ta thường sử dụng phương pháp “repeated ANOVA” 
để phân tích các số liệu được đo nhiều lần ở một đối tượng nghiên cứu. Nhưng 
phương pháp đó có một số vấn để về kĩ thuật tính toán và giả định, cho nên 
không còn được xem là phương pháp chuẩn nữa. 


Ngày nay, với R, mô hình ảnh hưởng hỗn hợp được xem là một trong 
những mô hình phổ biến nhất và thích hợp nhất cho phân tích các thí nghiệm 
như vừa mô tả. Như trình bày ở phần trên vấn để chủ yếu trong việc phân tích 
số liệu không phải là tính toán (vì đã có phần mềm máy tính), đó là những suy 
nghĩ và mô hình cho đữ liệu. Những suy nghĩ này phải xuất phát từ tình hình 
thực tế và quan trọng hơn hết là kiến thức sinh học. Ngoài ra, cũng cần phải 
xem xét các thông số cẩn thận để thẩm định tính phù hợp của các thông số 
cho từng trường hợp cụ thể. 


Có lẽ một số bạn cảm thấy nao núng trước những lí giải và công thức 
trong mỏ hình phân tích trên, nhưng quả thật mô hình rất đơn giản. Chúng 
ta muốn có câu trả lời cho câu hỏi: sự giảm nồng độ glucose có khác biệt giữa 
hai nhóm chuột hay không? Từ câu hỏi đó, chúng ta đặt ra một số mô hình để 
mô tả đữ liệu. Mô hình mà không có ý nghĩa sinh học chỉ là những mô hình 
toán học, và theo tôi, những mô hình như thế chẳng có lợi ích gì cho khoa học 
hay y học lâm sàng. 


Khoa học là hành trình đi tìm câu hỏi và câu trả lời. Các phân tích trên. 
đây thật ra còn khá đơn giản. Còn một số câu hỏi khác cũng cần được đặt ra. 
Chẳng hạn như có nên hoán chuyển số liêu sang log để phân tích hay phân 
tích theo số liệu gốc (mmol/L)? Nếu có thông tin khác về đặc điểm sinh học 
của từng chuột, các đặc điểm này có ảnh hưởng gì đến ảnh hưởng của thuốc? 
Tuy nhiên, hiện nay với một thí nghiệm đơn giản như thế tôi nghĩ rằng mô 
hình trên cũng thích hợp và đấy đủ. Hi vọng lấn sau chúng ta sẽ quay lại với 
một mô hình ảnh hưởng hỗn hợp khác. 
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riêng lẻ không thể giải quyết hay cung cấp câu trả lời đứt khoát cho 
một vấn để khoa học. Nhu cấu lặp lại nghiên cứu trong điểu kiện 
khác nhau rất quan trọng trong hoạt động khoa học. Trong nghiên cứu khoa 
học nói chung và y học nói riêng, nhiều khi chúng ta cần phải xem xét nhiều 
kết quả nghiên cứu từ nhiều nguồn khác nhau để giải quyết một vấn để cụ thể. 


M: vấn để khoa học cấn đến nhiều nghiên cứu. Một nghiên cứu 


16.1 Nhu cầu cho phân tích tổng hợp. 


Trong những năm gần đây, trong nghiên cứu khoa học xuất hiện khá 
nhiểu nghiên cứu dưới danh mục “meta-analysis) tạm dịch là “phân tích tổng 
hợp" Vậy phân tích tổng hợp là gì, mục đích, và cách tiến hành ra sao là những 
câu hỏi mà rất nhiều bạn đọc muốn biết. Chương này tôi sẽ mô tả vài khái 
niệm và cách tiến hành một phân tích tổng hợp, với hi vọng bạn đọc có thể tự 
mình làm một phân tích mà không cấn đến các phần mếm đất tiến. 


Nguồn gốc và ý tưởng tổng hợp dữ liệu khởi đầu từ thế ki 17. Thời đó, các 
nhà thiên văn học nghĩ rằng cần phải hệ thống hóa dữ liệu từ nhiều nguồn 
để có thể đi đến một quyết định chính xác và hợp lí hơn các nghiên cứu riêng 
lẻ. Nhưng phương pháp phân tích tổng hợp hiên đại phải nói là bắt đầu từ 
hơn nửa thế kỉ trước trong ngành tâm lí học. Năm 1952, nhà tâm lí học Hans 
J. Eysenck tuyên bố rằng tâm lí trị liệu (psychotherapy) chẳng có hiệu quả 
gì cả. Hơn hai mươi năm sau, năm 1976, Gene V. Glass, một nhà tâm lí học 
người Mi, muốn chứng minh rằng Eysenck sai, nên ông tìm cách thu thập dữ 
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liệu của hơn 375 nghiên cứu về tâm lí trị liệu trong quá khứ, và tiến hành tổng 
hợp chúng bằng một phương pháp mà ông đặt tên là “meta-analysis” [1]. Qua 
phương pháp phân tích này, Glass tuyên bố rằng tâm lí trị liệu có hiệu quả và 
giúp ích cho bệnh nhân. 

Phân tích tổng hợp - hay meta-analysis - từ đó được các bộ môn khoa. 
học khác, nhất là y học, ứng dụng để giải quyết các vấn để như hiệu quả của 
thuốc trong việc điểu trị bệnh nhân. Cho đến nay, các phương pháp phân tích 
tổng hợp đã phát triển một bước dài, và trở thành một phương pháp chuẩn. 
để thẩm định các vấn để gai góc, các vấn để mà sự nhất trí giữa các nhà khoa 
học vẫn chưa đạt được. Có người xem phân tích tổng hợp có thể cung cấp một 
câu trả lời sau cùng cho một câu hỏi y học. Tuy phát biểu này quá lạc quan, 
nhưng phân tích tổng hợp là một phương pháp rất có ích cho chúng ta giải 
quyết những vấn để còn trong vòng tranh cãi. Phân tích tổng hợp cũng có thể 
giúp cho chúng ta nhận ra những lĩnh vực nào cẩn phải nghiên cứu thêm hay 
cần thêm bằng chứng. 

Kết quả của mỗi nghiên cứu đơn lẻ thường được đánh giá hoặc là “tích 
cực” (tức là, chẳng hạn như, thuật điểu trị có hiệu quả), hoặc là “tiêu cực” (tức 
là thuật điểu trị không có hiệu quả), và sự đánh giá này dựa vào trị số P. Thuật 
ngữ tiếng Anh gọi qui trình đó là “signiñcance testing” - thử nghiệm ý nghĩa 
thống kê. Nhưng ý nghĩa thống kê tùy thuộc vào số mẫu được chọn trong 
nghiên cứu, và một kết quả “tiêu cực” không có nghĩa là giả thiết của nghiên 
cứu sai, mà có thể đó là tín hiệu cho thấy số lượng mẫu chưa đấy đủ để đi đến 
một kết luận đáng tin cậy. Cái logic của phân tích tổng hợp, do đó, là chuyển 
hướng từ significance testing sang ước tính effect size - mức độ ảnh hưởng. 
Câu trả lời mà phân tích tổng hợp muốn đưa ra không chỉ đơn giản là có hay. 
không có ý nghĩa thống kê (signifñcant hay insigniñcant) mà là mức độ ảnh 
hưởng bao nhiêu, có đáng để chúng ta quan tâm, có thích hợp để chúng ta ứng 
dụng vào thực tế hay không. 


16.2 Fixed-effects và Random-effects 


Hai thuật ngữ mà bạn đọc thường gặp trong các phân tích tổng hợp. 
là ñxed-effects (tạm dịch là ảnh hưởng bất biến) và random-effects (ảnh 
hưởng biến thiên). Để hiểu hai thuật ngữ này chúng ta sẽ xem xét một ví dụ 
tương đối đơn giản. Hãy tưởng tượng chúng ta muốn ước tính chiểu cao của 
người Việt Nam trong độ tuổi trưởng thành (18 tuổi trở lên). Chúng ta có 
thể tiến hành 100 nghiên cứu tại nhiều địa điểm khác nhau trên toàn quốc; 
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mỗi nghiên cứu chọn mẫu (samples) một cách ngẫu nhiên từ 10 người đến 
vài chục ngàn người; và cứ mỗi nghiên cứu chúng ta tính toán chiểu cao 
trung bình. Như vậy, chúng ta có 100 số trung bình, và chắc chắn những con 
số này không giống nhau: một số nghiên cứu có chiếu cao trung bình thấp, 
cao hay... trung bình. Phân tích tổng hợp là nhằm mục đích sử dụng 100 số 
trung bình đó để ước tính chiểu cao cho toàn thể người Việt. Có hai cách 
để ước tính: ñxed-effects meta-analysis (phân tích tổng hợp ảnh hưởng bất 
biến) và random-effects meta-analysis (phân tích tổng hợp ảnh hưởng biến 
thiên) [2]. 

Phân tích tổng hợp ảnh hưởng bất biến xem sự khác biệt giữa 100 con số 
trung bình đó là do các yếu tố ngẫu nhiên liên quan đến mỗi nghiên cứu (còn 
gọi là within-study variance) gây nên. Cái giả định đằng sau cách nhận thức 
này là: nếu 100 nghiên cứu đó đều được tiến hành giống nhau (như có cùng 
số lượng đối tượng, cùng độ tuổi, cùng tỉ lệ giới tính, cùng chế độ dinh dưỡng, 
v.v...) thì sẽ không có sự khác biệt giữa các số trung bình. 


Nếu chúng ta gọi số trung bình của 100 nghiên cứu đó là x¡,x;,....X,„ 
quan điểm của phân tích tổng hợp ảnh hưởng bất biến cho rằng mỗi x,là một 
biến số gồm hai phần: một phần phản ảnh số trung bình của toàn bộ quần thể 
dân số (tạm gọi là AM), và phần còn lại (khác biệt giữa x, và AM) là một biến số 
e,- Nói cách khác: 








Hay nói chung là: 


x.=M+*e, 


Tất nhiên e, có thể <0 hay >0. Nếu M và e, độc lập với nhau (tức không 
có tương quan gì với nhau) thì phương sai của x, (gọi là var|x,]) có thể viết 
như sau: 


varlx,]= var|M ]+ varle,] = 0+ sẻ 


Chú ý var[M] = 0 vì AM là một hằng số bất biến, s” là phương sai của e,. 
Mục đích của phân tích tổng hợp là ước tính M và sẻ. 


'lpe/ffelun heploerg 


Phân tích tổng hợp ảnh hưởng biến thiên xem mức độ khác biệt (còn gọi 
là variance hay phương sai) giữa các số trung bình là do hai nhóm yếu tố gây 
nên: các yếu tố liên quan đến mỗi nghiên cứu (within-study variance) và các 
yếu tố giữa các nghiên cứu (between-study variance). Các yếu tố khác biệt 
giữa các nghiên cứu như địa điểm, độ tuổi, giới tính, dinh dưỡng, v.v... cẩn 
phải được xem xét và phân tích. Nói cách khác, phân tích tổng hợp ảnh hưởng 
biến thiên đi xa hơn phản tích tổng hợp ảnh hưởng bất biến một bước bằng 
cách xem xét đến những khác biệt giữa các nghiên cứu. Do đó, kết quả từ phân 
tích tổng hợp ảnh hưởng biến thiên thường “bảo thủ” hơn các phân tích tổng 
hợp ảnh hưởng bất biến. 

Quan điểm của phân tích tổng hợp ảnh hưởng biến thiên cho rằng mỗi 
nghiên cứu có một giá trị trung bình cá biệt phải ước tính, gọi là m,. Do 
đó, x,là một biến số gồm hai phấn: một phần phản ánh số trung bình của 
quấn thể mà mẫu được chọn (m,, chú ý ở đây có chỉ từ ¡ để chỉ một nghiên 
cứu riêng lẻ ï), và phần còn lại (khác biệt giữa x, và m,) là một biến số e,. 
Ngoài ra, phân tích tổng hợp ảnh hưởng biến thiên còn phát biểu rằng m, 
đao động chung quanh số tổng trung bình A bằng một biến ngẫu nhiên £,. 


Nói cách khác: 
x,=m,+e, 
“Trong đó: 
m, =ÌM +£, 
Do đó: 


x,.=M+e,+e, 


Và phương sai của x, bây giờ có hai thành phần: 
var|x, ]= var[M ]+ var|e, |+ varle, ]= 0+ sỷ + sỶ 


Như ta thấy qua công thức này, s; phản ánh độ dao động giữa các nghiên 
cứu (between-study variation), còn sở phản ánh độ dao động trong mỗi 
nghiên cứu (within-study variation). Mục đích của phân tích tổng hợp ảnh 
hưởng biến thiên là ước tính M, sẻ và s}. 

Nói tóm lại, Phân tích tổng hợp ảnh hưởng bất biến và Phân tích tổng 
hợp ảnh hưởng biến thiên chỉ khác nhau ở phương sai. Trong khi phân tích 
tổng hợp bất biến xem s¿ = 0, thì phân tích tổng hợp biến thiên đặt yêu cầu 
phải ước tính s¿. Tất nhiên, nếu sỶ = 0 thì kết quả của hai phân tích này giống 
nhau. Trong bài này tôi sẽ tập trung vào cách phân tích tổng hợp ảnh hưởng 
bất biến. 
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16.3 Qui trình của một phân tích tổng hợp 

Cũng như bất cứ nghiên cứu nào, một phân tích tống hợp được tiến hành 
qua các công đoạn như: thu thập dữ liệu, kiểm tra đữ liệu, phân tích đữ liệu, 
và kiểm tra kết quả phân tích. 

« _ Bước thứ nhất: sử dụng hệ thống thư viên y khoa PubMed hay một 
hệ thống thư viện khoa học của chuyên ngành để tìm những bài báo. 
liên quan đến vấn để cần nghiên cứu. Bởi vì có nhiều nghiên cứu, vì 
lí do nào đó (như kết quả “tiêu cực” chẳng hạn), không được công 
bố, cho nên nhà nghiên cứu có khi cũng cần phải thu thập các nghiên 
cứu đó. Việc làm này tuy nói thì dễ, nhưng trong thực tế không dễ 
đàng chút nào! 


«_ Bước thứ bai: rà soát xem trong số các nghiên cứu được truy tìm đó, 
có bao nhiêu đạt các tiêu chuẩn đã được để ra. Các tiêu chuẩn này 
có thể là đối tượng bệnh nhân, tình trạng bệnh, độ tuổi, giới tính, 
tiêu chí, v.v... Chẳng hạn như trong số hàng trăm nghiên cứu về ảnh 
hưởng của vitamin D đến loãng xương, có thể chỉ vài chục nghiên 
cứu đạt tiêu chuẩn như đối tượng phải là phụ nữ sau thời kỳ mãn 
kinh, mật độ xương thấp, phải là nghiên cứu lâm sàng đối chứng 
ngẫu nhiên (randomized controlled clinical trials - RCT), tiêu chí 
phải là gãy xương đùi, v.v... (Những tiêu chuẩn này phải được để ra 
trước khi tiến hành nghiên cứu). 


« - Bước thứ ba: chiết số liệu và dữ kiện (data extraction). Sau khi đã xác 
định được đối tượng nghiên cứu, bước kế tiếp là phải lên kế hoạch 
chiết số liệu từ các nghiên cứu đó. Chẳng hạn như nếu là các nghiên 
cứu RCT, chúng ta phải tìm cho được số liệu cho hai nhóm can thiệp 
và đối chứng. Có khi các số liệu này không được công bố hay trình bày 
trong bài báo, và trong trường hợp đó, nhà nghiên cứu phải trực tiếp 
liên lạc với tác giả để tìm số liệu. Một bảng tóm lược kết quả nghiên 
cứu có thể tương tự như Bảng 1 dưới đây. 


« _ Bước thứ tư: tiến hành phân tích thống kẻ. Trong bước này, mục 
đích là ước tính mức độ ảnh hưởng chung cho tất cả nghiên cứu và 
độ dao động của ảnh hưởng đó. Phần dưới đây sẽ giải thích cụ thể 
cách làm. 
+ _ Bước thứ năm: xem xét các kết quả phân tích, và tính toán thêm một số 
chỉ tiêu khác để đánh giá độ tin cậy của kết quả phân tích. 
329 —_ 
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Cũng như phân tích thống kê cho từng nghiên cứu riêng lẻ tùy thuộc vào 
loại tiêu chí (như là biến số liên tục - continuous variables - hay biến số nhị 
phân - dichotomous variables), phương pháp phân tích tổng hợp cũng tùy 
thuộc vào các tiêu chí của nghiên cứu. Chúng ta sẽ lần lượt mô tả hai phương 
pháp chính cho hai loại biến số liên tục và nhị phân. 


16.4. Phân tích tổng hợp ảnh hưởng bất biến cho một tiêu chí liên tục 
(Fixed-effects meta-analysis for a continuous outcome) 


16.4.1 Phân tích tổng hợp bằng tính toán “thủ công” 


Ví dụ 1: Thời gian nằm viện để điểu trị ở các bệnh nhân đột quy là một tiêu chí 
quan trọng trong việc vạch định chính sách tài chính. Các nhà nghiên cứu muốn 
biết sự khác biệt về thời gian nằm viện giữa hai nhóm bệnh viện chuyên khoa và 
bệnh viện đa khoa. Các nhà nghiên cứu rà soát và thu thập số liệu từ 9 nghiên. 
cứu như sau (xem Bảng 1). Một số nghiên cứu cho thấy thời gian nằm viện trong 
các bệnh viện chuyên khoa ngắn hơn các bệnh viện đa khoa (như nghiên cứu 1, 
2, 3, 4, 5, 8), một số nghiên cứu khác cho thấy ngược lại (như nghiên cứu 7 và 9). 
'Vấn để đặt ra là các số liệu này có phù hợp với giả thiết bệnh nhân các bệnh viện 
chuyên khoa thường có thời gian nằm viện ngắn hơn các bệnh viện đa khoa hay 
không. Chúng ta có thể trả lời câu hỏi này qua các bước sau đây: 


Bước 1: Tóm lược dữ liệu trong một bảng thống kê như sau: 


Bảng 1. Thời gian nằm bệnh viện của các bệnh nhãn đột quy 
trong hai nhóm bệnh viện chuyên khoa và đa khoa 



































s2 23 20 
Tốngcông | 548 | 610 
Chú thích: Trong bảng này, ¡ là chỉ số chỉ mỗi nghiên cứu, ¡ = 1, 2,.... 9. N, và N, là 
số bệnh nhân nghiên cứu cho từng nhóm bệnh viện; LOS, và LOS, (length of stay): 
thời gian trung bình nằm viên (tính bằng ngày); SD, và SD,: độ lệch chuẩn (standard 
deviation) của thời gian nằm viên. 
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Bước 2: Ước tính mức độ khác biệt trung bình và phương sai (variance) 
cho từng nghiên cứu. Mỗi nghiên cứu ước tính một độ ảnh hưởng, hay nói 
chính xác hơn là khác biệt về thời gian nằm viên kí hiệu, và chúng ta sẽ đặt kí 
hiệu là 4, Chỉ số ảnh hưởng này chỉ đơn giản là: 


d.=LOS,- LOS,, 
Phương sai của đ, (tôi sẽ kí hiệu là sẻ) được ước tính bằng một công thức 


chuẩn dựa vào độ lệch chuẩn và số đối tượng trong từng nghiên cứu. Với mỗi 
nghiên cứu ¿ (¡ = 1, 2, 3, .... 9), chúng ta có: 


s+=(W„=1)§Dj +(N, =1)§D ( 1 „ 1 
: Nụ+N„T~2 Nụ Nụ 





Chẳng hạn như với nghiên cứu 1, chúng ta có: 


d,=75 ~ 55 =20 








và phương sai của d: 





=-...“ 1U }*»s 
, 155+156~2 155 156J ` 


hay độ lệch chuẩn: s, =/40.59 =6.37 


Với độ lệch chuẩn s, chúng ta có thể ước tính khoảng tin cậy 95% (95%, 
confidence interval hay 95%CT) cho đ bằng lí thuyết phân phối chuẩn (Normal 
distribution). Cần nhắc lại rằng, nếu một biến số tuân theo định luật phân 
phối chuẩn thì 95% các giá trị của biến số sẽ nằm trong khoảng +1,96 lần độ 
lệch chuẩn. Do đó, khoảng tin cậy 95% cho mức độ khác biệt của nghiên cứu. 
1]à: 

đ,- 1.96%,= 20 - 1.96*6.37 = 7.71 ngày 
đến 


đdđ+ vi, + 1.96*6.37 = 32.49 ngày 


Tiếp tục tính như thế cho các nghiên cứu khác, chúng ta sẽ có thêm bốn 
cột trong bảng sau đây: | 
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Bảng 1a. Độ khác biệt về thời gian giữa hai nhóm và khoảng tin cậy 95% 












































NGHIÊN CỨU (¡) đ + ni d-1.96%, d+1.96%, 
1 20 406 637 751 3249 
2 2 20 143 -0.80 480 
3 55 153 3⁄91 4734 6266 
4 71 150.2 1226 46.98 95.02 
5 4 20.2 449 -4.81 1281 
6 ị 12 141 -3.17 147 
7 - 954 977 -30.14 814 
8 10 80 283 445 15.55 
9 7 20.7 455 -1592 192 














Đến đây chúng ta có thể thể hiện mức độ ảnh hưởng đ, và khoảng tin cậy 
95% trong một biểu đồ có tên là “forest plot” như sau: 


StudylD: 
9 _—=_——- 
: " 
7 _—8— 
6 ——m— 


s- -+ =— 
+ 


1 _¬. 


Allstudies 








-40 -20 0 20 40 s0 a0 100 


Mean difference and 95% CÍ 
Biểu đồ forest thể hiện giá trị của đ, và khoảng tin cậy 95%. Mức độ ảnh hưởng đ, 
ghi nhận từ nghiên cứu 5, 7 và 9 được xem là không có ý nghĩa thống kê, 
vì khoảng tin cậy 95% vượt qua cột mốc 0. 
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Bước 3: Ước tính “trọng số” (weigh\) cho mỗi nghiên cứu. Trọng số (W) 
thực ra chỉ là số đảo của tung ai SỐ, | 
lx.u¿ 
Chẳng hạn như với nghiên cứu 1, chúng ta có: TW, “ng =0.0246 


Và chúng ta có thêm một cột mới cho bảng trên như sau: 
Bảng 1b. Trong số (weight) cho từng nghiên cứu. 










































Ww 
1 406 00246 
2 20 | 04886 
3 153 | 00654 
4 1502 | 00067 
5 202 | 00495 
6 12 | 08173 
7 954 | 00105 
8 80 | _ 01245 
9 207 | 00483 
Tổng số. | 1e3s4 








Bước 4: Ước tính trị số trung bình của đ cho tất cả các nghiên cứu. 
Chúng ta có thể đơn giản tính trung bình đ bằng cách cộng tất cả đ, và chia 
cho 9, nhưng cách tính như thế không khách quan, bởi vì mỗi giá trị đ, có một 
phương sai và trọng số (W,) cá biệt. Chẳng hạn như nghiên cứu 4, vì phương 
sai cao nhất (150.2), chứng tỏ rằng nghiên cứu này có số đối tượng ít hay độ 
dao động rất cao, và độ dao động cao có nghĩa là chúng ta không đặt “niềm 
tin cậy” vào đó cao được. Chính vì thế mà trọng số cho nghiên cứu này rất 
thấp, chỉ 0.0067. Ngược lại, nghiên cứu 6 có trọng số cao vì độ dao động thấp 
(phương sai thấp) và ước tính ảnh hưởng của nghiên cứu này có “trọng lượng” 
hơn các nghiên cứu khác trong nhóm. 

Do đó, để tính trung bình đ cho tổng số nghiên cứu, chúng ta phải xem. 
xét đến trọng số W. Với mỗi đ và W, chúng ta có thể tính trị số trung bình. 
trọng số (weighted mean) theo phương pháp chuẩn như sau: 


l 
__ X4, 
đ M.— 


“â 
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Bất cứ một ước tính thống kê (estimate) nào cũng phải có một phương. 
sai. Và trong trường hợp đ, phương sai (kí hiệu là s7) chỉ đơn giản là số đảo 
của tổng trọng số W; 





Sai số chuẩn (standard error, SE) của đ, do đó là: SE(đ) = s„. Theo lí thuyết 
phân phối chuẩn (Normal distribution), khoảng tin cậy 95% (95% confidence 
interval, 95%CI) có thể được ước tính như sau: 


95%CI của đ= đ+1.96(s,) 
Để tính đ chúng ta cần thêm một cột nữa: đó là cột W;đ,. Chẳng hạn như 


với nghiên cứu 1, chúng ta có H4, =0,0246x20= 0.4928. Tiếp tục như thế, 
chúng ta có thêm một cột. 


Bảng 1c. Tính toán trị số trung bình 















































NGHIÊN CỨU đ s W, M4, 
1 20 406 0.0246 04928 

2 2 20 0.4886 09771 

bị 55 153 00654 3.5993 

4 HAI 150.2 0.0067 04726 

` 4 20.2 00495 0.1981 

6 + 12 08173 | -08173 

T BÀI 954 0.0105 -0.1153 

NÓ 10 80 0.1245 1.2450 

9 +7 20.7 0.0483 -0.3383 
Tổng số. 1.6354 5.7140 











Sau đó, cộng tất cả W, và 4đ, (trong hàng “Tổng sổ” của bảng trên). Như 
vậy, trị số trung bình trọng số của đ là: 


Ha 
đc > Hi _ 0.4928+0.9771+...—0.3383 _ 5.7140 _ 
Š 0.0246+0.4886+...+0.0483 1.6354 


3.49 





E- 
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: 1 
Và phương sai của đlà: s}=—————=0.61. 
TENONE “1.6845 


Nói cách khác, sai số chuẩn (standard error) của 4 là: 
s„ =ý0.61 =0.782. 
Khoảng tin cậy 95% (95% confdence interval hay 95%CI) có thể được 
ước tính như sau: 
3.49 + 1,96*0.782 = 1.96 đến 5.02. 


Đến đây, chúng ta có thể nói rằng, tính trung bình, thời gian nằm viện tại 
các bệnh viện đa khoa dài hơn các bệnh viện chuyên khoa 3.49 ngày và 95%. 
khoảng tin cậy là từ 1.96 ngày đến 5.02 ngày. 

Bước 5: Ước tính chỉ số đồng nhất (homogeneity) và bất đồng nhất 
(heterogeneity) giữa các nghiên cứu [3]. Trong thực tế, đây là chỉ số đo lường 
độ khác biệt giữa mỗi nghiên cứu và trị số trung bình trọng số. Chỉ số đồng 
nhất (index of homogeneity) được tính theo công thức sau đây: 


0= M(4,~d} 











có độ phân phối theo luật Chỉ-square với bậc tự đo (đegrees of freedom - d0) 
là k-1 (tức là z‡,). Nói cách khác, nếu Q lớn hơn z‡, thì đó là tín hiệu cho 
thấy sự bất đồng nhất giữa các nghiên cứu "có ý nghĩa thống kê” (signifcant). 

Nhiều nghiên cứu trong thời gian qua chỉ ra rằng Q thường không phát 
hiện được sự bất đồng nhất một cách nhất quán, cho nên ngày nay ít ai dùng 
chỉ số này trong phân tích tổng hợp. Một chỉ số khác thay thế Q có tên là index 
of heterogeneity (PP), tạm dịch là chỉ số bất đồng nhất, nhưng sẽ giữ cách viết 
P. Chỉ số này được định nghĩa như sau: 


p~0-(R~!) 
9 


E có giá trị từ âm đến 1. Nếu Ƒ < 0, thì chúng ta sẽ cho nó là 0; nếu Ƒ gân 
bằng 1 thì đó là dấu hiệu cho thấy có sự bất đồng nhất giữa các nghiên cứu. 


Trong ví dụ trên, để ước tính Q và F, chúng ta cấn tính W/(đ,—đ) cho 
từng nghiên cứu. Chẳng hạn như, với nghiên cứu 1: 


W/(d,—4)` = 0,0246*(20 - 3.49)? = 6,7129 
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Bảng 1đ. Tính toán các chỉ số đống nhất và bất đống nhất 



































NGHIÊNCỬU Ô 4, sẻ W Ma, |M(d =4} 

1 20 406 00246 04928 6.7129 
2 2 20 04886 09771 10903 
3 5S 153 00654 3.5993 1736080 
4 71 150.2 00067 04726 30.3356. 
5 4 202 00495 0.1981 00127 
6 + 12 08173 :08173 16.5054 
7 -11 954 00105 ~0.1153 22026 
8 10 80 0.1245 1.2450 5.2701 
9 -7 207 00483 -0.3383 5.3215 

Tổng số. 1/6354 5.7140 241.05 


























Sau khi đã ước tính W/(đ, - đ} cho từng nghiên cứu, chúng ta cộng lại số 
này (xem cột sau cùng) và đó chính là Q : 


W/(d,—4}” = 241.05 





Từ đó, ƒ có thể ước tính như sau: 


;_ 241.05—8 
241.05 


Chỉ số bất đồng nhất P rất cao, cho thấy độ dao động về 4 giữa các nghiên 
cứu rất cao. Điểu này chúng ta có thể thấy được chỉ qua nhìn vào cột số 2 trong 
bảng thống kêtrên. củ cu 7C 

Bước 6: Đánh giá khả năng publication bias [4]. Publication bias (tạm. 
dịch: trong thiên vị) là một khái niệm tương đối mới có thể giải thích bằng 
tình huống thực tế sau đây. Chúng ta biết rằng khi một nghiên cứu cho ra kết 
quả “negative” (kết quả tiêu cực, tức là không phát hiện một ảnh hưởng hay. 
một mối liên hệ có ý nghĩa thống kê) công trình nghiên cứu đó rất khó có cơ 
hội được công bố trên các tập san, bởi vì giới chủ bút tập san nói chung không 
thích in những bài như thế. Ngược lại, một nghiên cứu với một kết quả “tích 
cực” (tức có ý nghĩa thống kê) thì nghiên cứu có khả năng xuất hiện trên các 
tập san khoa học cao hơn là các nghiên cứu với kết quả “tiêu cực” Thế nhưng 
phần lớn những phân tích tổng hợp lại dựa vào các kết quả đã công bố trên 


=0.966 
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các tập san khoa học. Do đó, ước tính của một phân tích tổng hợp có khả năng 
thiếu khách quan, vì chưa xem xét đẩy đủ đến các nghiên cứu tiêu cực chưa 
bao giờ công bố. 

Một số nhà nghiên cứu để nghị dùng biểu đồ funnel (còn gọi là funnel 
plot) để kiểm tra khả năng publication bias. Biểu đồ funnel được thể hiện 
bằng cách vẽ độ chính xác - precision (trục tung, y-axis) với ước tính mức độ 
ảnh hưởng cho từng nghiên cứu. Ở đây precision được định nghĩa là số đảo 
của sai số chuẩn (standard error): 

precision = S, 
sa 

Nói cách khác, biểu đồ funnel biểu diễn precision với d. Chẳng hạn như 
với nghiên cứu 1, chúng ta có: precision = 1/4/40.,6=0,157. Tính cho từng 
nghiên cứu, chúng ta dùng bảng thống kê sau để vẽ biểu đồ funnel như sau: 


Bảng 1e. Ước tính publication bias 


















































NGHIÊN CỨU. đ, ð; 1, 
1 20 406 0.1570 
2 2 20 0.6990 
3 5S 15.3 0.2558 
4 71 150.2 0.0816 
5 4 202 0.2225 
6 Mi 12 0.9041 
7 +11 954 0.1024 
8 10 8.0 0.3528 
9 -7 20.7 0.2198 
' 
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Biểu đồ funnel (biểu đồ phu): trục tung là precision và trục hoành là đ. 
Biểu đổ này cho thấy phần lớn các nghiên cứu có kết quả thời gian nằm viện 
trong các bệnh viện đa khoa thường lâu hơn các bệnh viện chuyên khoa. 

Cái logic đẳng sau biểu đồ funnel là nếu các công trình nghiên cứu lớn 
(tức có độ precision cao) có khả năng được công bố cao, thì số lượng nghiên 
cứu với kết quả tích cực sẽ nhiều hơn số lượng nghiên cứu nhỏ hay với kết 
quả tiêu cực trong các tập san. Và nếu điều này xảy ra, thì biểu đồ funnel sẽ thể 
hiện một sự thiếu cân đối (asymmetry). Nói cách khác, sự thiếu cân đối của 
một biểu đố funnel là đấu hiệu cho thấy có vấn để về publication bias. Nhưng 
vấn để đặt ra là publication bias đó có ý nghĩa thống kê hay không? Biểu đổ 
funnel không thể trả lời câu hỏi này, chúng ta cần đến các phương pháp phân 
tích định lượng nghiêm chỉnh hơn. 


Kiểm định Egger 

Vài năm gần đây có ý kiến cho rằng biểu đồ funnel rất khó diễn dịch, và có 
thể gây nên ngộ nhận về publication bias [5-6]. Thật vậy, một số tập san y học 
có chính sách khuyến khích các nhà nghiên cứu tìm một phương pháp khác 
để đánh giá publication bias thay vì dùng biểu đồ funnel. 

Một trong những phương pháp đó là kiểm định Egger (còn gọi là Egger's 
test). Với phương pháp này, chúng ta mô hình rằng SND = a + b x precision, 
trong đó SND được ước tính bằng cách lấy đ chia cho sai số chuẩn của d, tức 
là: §MD, = 'ẤL, a và b là hai thông số phải ước tính từ mô hình hồi qui đường 

sự 
thẳng đó. Ở đây, acung cấp cho chúng ta một ước số về tình trạng thiếu cân 
đối của biểu đổ funnel: a>0 có nghĩa là xu hướng nghiên cứu càng có qui mô. 
lớn càng có ước số về độ ảnh hưởng với sự chính xác cao. 


Trong ví dụ trên, chúng ta có thể dùng một phần mềm phân tích thống kê 
(như SAS hay R) để ước tính a và b như sau: 


SND, = 4.20 + -4.17084*precision, 


Kết quả ước số a = 4.20 tuy là >0 nhưng không có ý nghĩa thống kê, cho. 
nên ở đây bằng chứng cho thấy không có sự publication bias. 

Tuy nhiên, như đã thấy trong thực tế, kiểm định Egger này cũng chỉ là một 
cách thể hiện biểu đồ funnel mà thôi, chứ cũng không có thay đổi gì lớn. Có 
một cách đánh giá publication bias, cho đến nay, được xem là đáng tin cậy nhất: 
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đó là phương pháp phân tích hồi qui đường thẳng (linear regression) giữa di, và 
tổng số mẫu (N). Nói cách khác, chúng ta tìm a và b trong mô hình [7]: 
| 4,=a+b°N, 
Nếu không có publication bias thì giá trị của b sẻ rất gấn với 0 hay không có. 
ý nghĩa thống kê. Nếu trị số b khác với 0 thì đó là một tín hiệu của publication 
bias. Trong ví dụ vừa nêu với đữ liệu sau đây, 



































NGHIÊN CỨU. 4 N 
1 20 3 
2 2 |8 | 
3 55 |_ 1ø | 
4 7 | %_ | 
s 4 | H | 
6 1 | 19 | 
7 „1 67 
8 10 293 
9 kị | m | 
chúng ta có phương trình: 


đ,= 16.0 - 0.0009*/N, 


và quả thật giá trị của b quá thấp (cũng như không có ý nghĩa thống kê), 
cho nên đến đây chúng ta có thể kết luận rằng không có vấn để publication 
bias trong nghiên cứu vừa để cập đến. 

Nói tóm lại, qua phân tích tổng hợp này, chúng ta có bằng chứng đáng 
tin cậy để kết luận rằng thời gian nằm viện của bệnh nhân trong các bệnh 
viện đa khoa đài hơn các bệnh viện chuyên khoa khoảng 3 ngày rưỡi, hoặc 
trong 95% trường hợp thời gian khác biệt khoảng từ 2 ngày đến 5 ngày. Kết 
quả này cũng cho thấy không có thiên vị xuất bản (publication bias) trong 
phân tích. 


16.4.2 Phân tích tổng hợp bằng R 


R có hai package được viết và thiết kế cho phân tích tổng hợp. Package 
được sử dụng khá thông dụng là meta. Bạn đọc có thể tải miễn phí từ trang 
web của R (trong phần packages): http://cran.R-project.org 
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Để phân tích tổng hợp bằng R chúng ta phải nhập package meta vào môi 
trường vận hành của R (với điểu kiện, tất nhiên, là bạn đọc đã tải và cài đặt 
meta vào R). 


> 1ibrary (meta) 
Sau đó, chúng ta sẽ nhập số liệu trong ví dụ 1 vào R biến như sau: 


» _ Nhập dữ liệu cho từng cột trong Bảng 1 và cho vào một dataframe gọi 
là 1os: 


v 


n1 <- €(155,31,75,18,8,57, 34,110, 60) 
> losl <- c(55,27,64,66,14,19,52,21,30) 
> sdl <- c(47,7,17,20,8,7,45,16,27) 


v 


n2 <- c€(156,32, 71,18,13,52, 33,183, 52) 
1os2 <- c(75,29,119,137,18,18,41,31,23) 
sd2 <- c(64,4,29,48,11,4,34,27,20) 


v.v 


> 1os <- data.£rame (n1,1os1, sd1,n2,1os2,sd2) 


» _ Sử dụng hàm metacont (dùng để phân tích các biến liên tục - do đó 
cont = continuous variable) và cho kết quả vào đối tượng res: 


> res <- metacont (n1,1os1, sd1,n2, los2, sd2, data=los) 


> res 
> res 
WMD 95%-CI %W(fixed) $%W(random) 

1-20 ([-32.4744; -7.5256] 1.44 10.69 
2 -2 [-4.8271; 0.8271] 28.11 12.67 
3 -55 [-62.7656; -47.2344] 3.73 11.89 
4-71 [-95.0223; -46.9777] 0.39 1.39 
5 ~4 ([~-12.1539; 4.1539] 3.38 11,80 
6 3 J =1/1171G 3.1176] 50.11 12.72 
7 11 [ -8.0620; 30.0620] 0.62 8.76 
8 -10 [-14.9237; -5.0763] 9.27 12.41 
9 7 [-1.7306; 15.7306] 2.95 11.67 


Number of trials combined: 9 
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WMD 95$-CT z p.value 
Fixed effects model -3.464 [ -4.96; -1.96] -4.53 <0.0001 
Random effects model -13.98 [-24.03; -3.93] -2.73 0.0064 


Quantifying heterogeneity: 
tau^2 = 205.4094; H = 5.46 [4.54; 6.58]; 
1^2 = 96.7% (95.2%; 97.7%] 


Test of heterogeneity: 
Qd.f. p.value 
238.92 8 < 0.0001 


Method: Tnverse variance method 

meta cung cấp cho chúng ta hai kết quả: một kết quả dựa vào mô hình 
fñxed-effects và một dựa vào mô hình random-effects. Như thấy qua kết quả 
trên, mức độ khác biệt giữa hai mô hình khá lớn, nhưng kết quả chung thì 
giống nhau, tức kết quả của cả hai mô hình đều có ý nghĩa thống kê. 

Ngoài ra, chúng ta cũng có thể sử dụng hàm p1ot để thể hiện kết quả 
trên bằng biểu đổ forest như sau: 


> forest(res, lwd=3) 
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16.5. Phân tích tổng hợp ảnh hưởng bất biến cho một tiêu chí nhị 
phân (Fixed-effects meta-analysis for a dichotomous outcome) 


Trong phần trên, tôi vừa mô tả những bước chính trong một phân tích 
tổng hợp những nghiên cứu mà tiêu chí là một biến liên tục (continuous 
variable). Đối với các biến liên tục, trị số trung bình và độ lệch chuẩn là hai 
chỉ số thống kê thường được sử dụng để tóm lược. Nhưng hai chỉ số này 
không thể ứng dụng cho những tiêu chí mang tính thể loại hay thứ bậc như tử 
vong, gây xương, v.v... vì những tiêu chí này chỉ có hai giá trị: hoặc là có, hoặc 
là không. Một người hoặc là còn sống hay chết, bị gãy xương hay không gãy 
xương, mắc bệnh suy tim hay không mắc bệnh suy tim, v.v... Đối với những 
biến này, chúng ta cần một phương pháp phân tích khác với phương pháp 
dành cho các biến liên tục. 


16.5.1 Mô hình phân tích 

Đối với những tiêu chí nhị phân (chỉ có hai giá trị), chỉ số thống kê tương, 
đương với trị số trung bình là tỉ lệ hay proportion (có thể tính phần trăm); và 
chỉ số tương đương với độ lệch chuẩn là sai số chuẩn (standard error). Chẳng 
hạn như nếu một nghiên cứu theo đõi 25 bệnh nhân trong một thời gian, và 
trong thời gian đó có 5 bệnh nhân mắc bệnh, thì tỉ lệ (kí hiệu là p) đơn giản là: 
p = 5/25 = 0,20 (hay 20%). Theo lí thuyết xác suất, phương sai của p (kí hiệu 
là var[p]) là: 

var[p] = p(1-p)/n = 0,2*(1 - 0,8)/25 = 0,0064. 


“Theo đó, sai số chuẩn của p (kí hiệu SE[p}]) là: 


§E [p]= jvar[p] =x(0,0064 =0,08. 
Chúng ta còn có thể ước tính khoảng tin cậy 95% của tỉ lệ như sau: 
p+l,96xSE[p]= 0,2+1,96x0,08 = 0,04 đến 0,36. 

'Vì cách tính của các tiêu chí nhị phân khá đặc thù, cho nên phương pháp 
phân tích tổng hợp các nghiên cứu với biến nhị phân cũng khác. Để minh họa 
cách phân tích tổng hợp dạng này, chúng ta sẽ lấy một ví dụ (phỏng theo một 
nghiên cứu có thật). 

Ví dụ 2: Beta-blocker (viết tắt là BB) là một loại thuốc có chức năng điều 
trị và phòng chống cao huyết áp. Có giả thiết cho rằng BB cũng có thể phòng 
chống bệnh suy tim, hay ít ra là làm giảm nguy cơ suy tim. Để thử nghiệm 
giả thiết này, hàng loạt nghiên cứu lâm sàng đối chứng ngẫu nhiên đã được 
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tiến hành trong thời gian 20 năm qua. Mỗi nghiên cứu có 2 nhóm bệnh nhân: 
nhóm được điểu trị bằng BB, và một nhóm không được điểu trị (còn gọi là 
placebo hay giả dược). Trong thời gian 2 năm theo dõi, các nhà nghiên cứu 
xem xét tần số tử vong cho từng nhóm. Bảng 2 sau đây tóm lược 13 nghiên 
cứu trong quá khứ: 


Bảng 2. Beta-blocker và bệnh suy tim (congestive heart failure) 
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12 1990. 145 2001 217 

13 214 5 212 17 
Tốngcông | 4879 420 4516 612 











Ñ: số bệnh nhân nghiên cứu; 

Tử vong: số bệnh nhân chết trong thời gian theo dõi. 

Như chúng ta thấy, một số nghiên cứu có số mẫu khá nhỏ, lại có những 
nghiên cứu với số mẫu gần 4000 người! Câu hỏi đặt ra là tổng hợp các nghiên 
cứu này, kết quả có nhất quán hay phù hợp với giả thiết BB làm giảm nguy. 
cơ suy tim hay không? Để trả lời câu hỏi này, chúng ta tiến hành những bước. 
sau đây: 

Bước 1: Ước tính mức độ ảnh hưởng cho từng nghiên cứu. Mỗi nghiên 
cứu có hai tỉ lệ: một cho nhóm BB và một cho nhóm placebo (giả dược). Gọi 
hai tỉ lệ này là p, và p„ chỉ số để đánh giá mức độ ảnh hưởng của thuốc BB là tỉ 
số nguy cơ tương đối (relative risk - RR), và RR có thể được ước tính như sau: 


RR =PL 
P 
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Chẳng hạn như, trong nghiên cứu 1, chúng ta có: p, ==020 và 


P “024. Như vậy tỉ số nguy cơ cho nghiên cứu 1 là: RR _¬ 





=0,833. 


Tính toán tương tự cho các nghiên cứu còn lại, chúng ta sẽ có một bảng như sau: 
Bảng 2a. Ước tính tỉ lệ tử vong và tỉ số nguy cơ tương đối 


















































NGHIÊN CỨU. TỈ LỆ TỪ VONG TỈ LỆ TỬ VONG TỈ SỐ 
ñ) BB(P) NHÓMPLACEBO(P)|  NGUYCƠ(88) 

1 0200 0240 0833 

| 3 0111 Ỉ 0.125 | 0.889. 

3 0.119. | 0111 | 1.067 

Ị 4 0.040. | 0.080. | 0.500. 

5 0.038. Ï 0059. | 0.648. 

| 6 0.166. Ỉ 0.209. | 0.794. 

7 0091 Í 0.125 | 0727 

| 8 0046. Ỉ 0.155 | 0297 

9 0045 | 0076. | 0.595 

10 0.009. Ỉ 0037 | 0231 

1 0.118 Ỉ 0173 | 0681 

| 12 0073 Ỉ 0.108 | 0672 

| 13 0037 | 0.080 | 0466. 











Bước 2: Biến đổi RR thành đơn vị logarithm và tính phương sai, sai số. 
chuẩn. Mỗi ước số thống kê, như có lấn nói, đều có một luật phân phối, và 
luật phân phối có thể phản ánh bằng phân sai (hay sai số chuẩn). Cách tính 
phương sai của RR khá phức tạp, cho nên chúng ta sẽ tính bằng một phương 
pháp gián tiếp. Theo phương pháp này, chúng ta sẽ biến đổi RR thành log[RR] 
(chú ý “log” ở đây có nghĩa là loga tự nhiên, tức là log, hay có khi còn viết tắt là 
in ~ natural logarithm), và sau đó sẽ tính phương sai của log[RR]. 

Nếu N, và N, là lần lượt tổng số mẫu của nhóm 1 và nhóm 2; và đ, và đ, 
là số tử vong của nhóm 1 và nhóm 2 của một nghiên cứu, thì phương sai của 
log[RR] có thể ước tính bằng công thức sau đây: 

'Var[logRR] = “1x. , 
dc Mod dc Nịnd; 


'Và sai số chuẩn của log[RR] là: 





SE[logRR] 
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Trong ví dụ trên, với nghiên cứu 1, chúng ta có: 
Log[RR] = log (0.833) = -0.182 
Với phương sai: 
1 1 1 


| 
valbg RE]= c— 5 —s*g~zgg sp 


'Và sai số chuẩn: 
SE[log RR]= 0.264 =0.514 
Dựa vào luật phân phối chuẩn, chúng ta cũng có thể tính toán khoảng tin 
cậy 95% của RR cho từng nghiên cứu bằng cách biến đổi ngược lại theo đơn 
vị RR. Chẳng hạn như với nghiên cứu 1, chúng ta có khoảng tin cậy 95% của 
log[RR] là: 


logRR + 1.96*SE[logRR] = -0.182 + 1.96*0.514 = -1.19 đến 0.82 
hay biến đổi thành đơn vị nguyên thủy của RR là: 
exp(-1.19) = 0.30 đến exp(0.82) = 2.28 
Tính toán tương tự cho các nghiên cứu khác, chúng ta có thêm một bảng 
mới như sau: 
Bảng 2b. Ước tính tỉ số nguy cơ tương đối, phương sai, sai số chuẩn 
và khoảng tin cây 95% cho từng nghiên cứu. 


















































mềm Hi |oeen |xx=z=I xuoem. or | dc 
1 0200 -0.182 0264 0514 030 228 
2 0111 -0.118 1304 1142 009 833 
3 0119 0065 0079 0282 061 1845 
4 0040 -0693 1415 1.189 005 5.15 
5 0038 -0434 0709 0842 012 337 
6 0166 -0.231 0026 0162 058 1/09 
7 0091 -0318 0729 0854 014 387 
8 0046 -1214 0142 0377 014 062 
9 0045 -0520 0242 0492 023 1/56 
10 0009 -1.465 0688 0829 005 1.17 
11 0.118 -0.385 0009 0095 056 082 
12 0073 -0398 0010 0102 055 082 
13 0037 -0.763 0174 0417 021 1.06 
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Chúng ta có thể thể hiện RR và khoảng tin cậy 95% bằng biểu đồ forest 
như sau: 


SudylD: 





. 
? 
° 
Ũ 
Ũ 
Ũ 


' —=— 
Aldudec +ị 


09 03505 1 2345 16 
Relative risk and 95% CI 


Biểu đồ forest thể hiện giá trị của #R và khoảng tin cậy 959. 
Các ước tính khoảng tin cậy 95%CI của RR vượt qua cột mốc 1 
được xem là không có ý nghĩa thống kê. 


Bước 3: Ước tính trọng số (weight) cho từng nghiên cứu và RR cho toàn 
bộ nghiên cứu. Biểu đồ trên cho thấy một số nghiên cứu có độ dao động RR 
rất lớn (chứng tỏ các nghiên cứu này có số mẫu nhỏ hay ước số RR không ổn 
định), và ngược lại, một số nghiên cứu lớn có ước số RR ổn định hơn. Trọng, 
số cho mỗi nghiên cứu (W, - cho vào kí hiệu ?) để đo lường độ ổn định này là 
số đảo của phương sai: 


W,= 
“_ varllogRR,] 


Và số trung bình trọng số của log[RR] (kí hiệu là logwRR) có thể ước tính 
từ tổng của tích W.xlog[RR)]: 


»rư, xlog[RR, | 


Sư, 


logwwRR = 


Với phương sai: h 
Var[logwRR] =———— 


L4 
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và sai số chuẩn: ñ 


Sư, 





SE[logwRR]= ¡1 


Ngoài ra, khoảng tin cậy 95% có thể ước tính bằng: 
log wR + SE[log wRR] 
Để tính trung bình trọng số logRR, chúng ta cẩn một cột W.xlog[RR). 
Chẳng hạn như với nghiên cứu 1, chúng ta có: 
1 


W,=———=3.19 
0,264 


I, xIog[RR, ] = 3.79 x (-0.182) = -0.69 


Tính toán tương tự cho các nghiên cứu khác, chúng ta sẽ có một bảng số 
liệu mới như sau: 


Bảng 2c. Ước tính tỉ trọng số (W) 

































































NGHIÊN CỨU (I) | LOGIRR] VARILOGRRI W WxLOG[RR] 
1 -0.182 0.264 3.79 :0.69 
2 “0.118 14304 077 -0.09 
3 0.065 0.079 1261 082 
4 -0.693 1415 071 -0.49 
5 -0.434 0.709 141 -0.61 
6 -0.231 0.026 38.30 -8.86 
7 -0.318 0.729 137 044 
8 -1.214 0.142 703 -8.54 
9 -0.520 0.242 413 -215 
10 -1465 0.688 145 -2.13 
11 -0.385 0.009 110/78 -4263 
12 -0.398 0.010 96.13 -38.23 
13 -0.763 0.174 5.75 -4.39 
Tổng số. 284.24 -108.42 
Chúng ta có: 


XW, = 3.79 + 0.77 +... + 5.75 = 284.24 
3 ,xIog[RR, ]= -0.69 - 0.09 +... -4.39 = -108.42 
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Do đó, trung bình trọng số của log[RR] có thể ước tính bằng: 





XW,xiegjRR]  _ụ „› 
logwiRR £—————————— 1ï =-0.38 
»ư, ' 

Với phương sai: 

| TL_LT—A 

Var[logieRR]= — — “ nguaa “00035 
) XI 

và sai số chuẩn: 


SEllogwRR]= |_— =V89035 =0.06 
>> 


Do đó, khoảng tin cậy 95% của logwRR có thể ước tính bằng: 
log w8R + SE [log wRR]} = -0.38 + 1.96x0.06 = 0.498 đến -0.265 


Nhưng chúng ta muốn thể hiện bằng đơn vị gốc (tức tỉ số); do đó, các ước 
số trên phải được biến chuyển về đơn vị gốc: 


RR = expfogwRR) = log(-0.38) = 0.68 
'Và khoảng tin cậ) 
Exp(-0.498) = 0.61 đến Exp(-0.265) = 0.77. 












Đến đây chúng ta có thể nói rằng tỉ lệ tử vong trong các bệnh nhân được 
điểu trị bằng BB là 0.68 (hay thấp hơn 32%) so với các bệnh nhân placebo. 
Ngoài ra, vì khoảng tin cậy 95% không bao gồm 1, chúng ta cũng có thể phát 
biểu rằng mức độ khác biệt này có ý nghĩa thống kê. 

Bước 4: Ước tính chỉ số đồng nhất và bất đồng nhất. Như đã nói trong 
phần (1) liên quan đến phân tích biến liên tục, sau khi đã ước tính tỉ số nguy. 
cơ trung bình, chúng ta cần phải xem xét chỉ số ï”. Để ước tính chỉ số f, chúng 
ta cẩn tính W/(logRR,—logwiR}' cho mỗi nghiên cứu. Chẳng hạn như với 
nghiên cứu 1, chúng ta có: 


W/(logRR, —log w/&R)” = 3.79x(-0.182 + 0.38)? = 0.1502 
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và tính toán tương tự cho các nghiên cứu khác, chúng ta sẽ có một bảng. 
số liệu mới như sau: 


Bảng 2d. Ước tính chỉ số heterogeneity (I?) 


















































NGHIÊN CỨU (j) | Log[RR] bá 'W,fogRR,- log wRR)" 
1 -0.182 379 0.1502 
2 ~0.118 0.77 0.0533 
3 0.065 1261 2.5118 
4 -0693 071 0.0687 
5 -0434 141 0.0040. 
6 -0231 38.30, 0.8635 
7 ~0.318 137 0.0054 
8 -1214 7/03 48731 
9 -0520 4/13 0.0790. 
10 -1.465 145 17074 
"1 -0.385 11078 00012 
12 -0.398 96.13 0.0253 
13 -0763 5.75 0/8382 
Tổng số 284.24 11.1811 

















Ví dụ 2 có k = 13 nghiên cứu. Do đó: 


h 
0=, ⁄ (log R8, —logw##R)Ÿ = 11.1811 


Và 
£~0-~1) _ 11.18 
F2 11.18 


1E LẺ «016 


Vì Ƒ < 0, nên chúng ta có thể cho P = 0. Nói cách khác, mức độ khác biệt 
về RR giữa các nghiên cứu không có ý nghĩa thống kê. 

Bước 5: đánh giá khả năng publication bias. Như đã giải thích ở trên, 
cách đánh giá khả năng publication bias có ý nghĩa nhất là phân tích hồi qui 
đường thẳng log[RR] và tổng số mẫu (N): 


log[RR,] = a + bxN, 
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Dựa vào bảng thống kê sau. 















































NGHIÊN CỨU (/) Log[RR] N 
1 -0.182 50 
2 -0.118 25 
3 0065 383 
4 -0693 50 
5 -0434 139 
6 -0.231 641 
7 -0318 29 
8 -1214 345 
9 -0.520 278 
10 -1465 366 
1 -0.385 2647 
12 -0398 3991 
13 -0763 426 














Chúng ta có thể ước tính ø và b như sau: 
log[RR ] = -0.534 + 0.00003xN, 
Ước tính b = 0.00003 không có ý nghĩa thống kê (p = 0.782). Do đó, chúng 
ta có thể phát biểu rằng mức độ thiên lệch về xuất bản không đáng kể trong 





phân tích tổng hợp này. 
13 
° 
en 
# 8 
: ¿ 
® ®s ¿| 
® .“e 
£ t—>———n 
2 15 1 05 0 05 1 15 2 
Log[RR) 


Biểu đồ funnel cũng cho thấy không có vấn để publication bias 


16.5.2 Phân tích bằng R 


Package meta có hàm metabin có thể sử dụng để tiến hành phân tích 
tổng hợp cho các biến nhị phân như số liệu trong ví dụ 2 trên đây. Khởi đầu, 
chúng ta “nạp” package meta (nếu chưa làm) vào môi trường vận hành, và sau 
đó thu nhập số liệu vào một data frame: 
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1ibrary (meta) 


# Số liệu từ ví dụ 2 

n1 <- c(25,9,194,25,105, 320, 33,261,133,232,1327,1990,214) 
d1 <- c(5,1,23,1,4,53,3,12,6,2,156,145,8) 

n2 <- c(25,16,189,25, 34, 321,16, 84,145, 134,1320,2001,212) 
d2 <~ c(6,2,21,2,2,67,2,13,11,5,228,217,17) 


# Tạo một dataframe lẫy tên là bb 
bb <- data.£rame (n1,d1,n2,d2) 


Phân tích bằng hàm metabin và kết quả trong res 


+ 
> res <~ metabin(d1,n1,d2,n2,data=bb, sm="RR") 
> res 

> 


res 
RR 953-CI $W(fixed) %W(random) 
1 0.8333 [0.2918; 2.3799] 1.26 1,26 
2 0.8889 [0.0930; 8.4951] 0.27 0.27 
3 1.0670 [0.6116; 1.8617] 4.47 4.47 
4 0.5000 [0.0484; 5.1677] 0.25 0.25 
5 0.6476 (0.1240; 3.3814] 0.51 0,51 
6 0.7935 [0.5731; 1.0986] 13.08 13.08 
7 0.7273 [0.1346; 3.9282] 0.49 0.49 
8 0.2971 (0.1410; 0.6258) 2.49 2.49 
9 0.5947 [0.2262; 1.5632] 1.48 1.48 
10 0.2310 [0.0454; 1.1744] 0.52 0.52 
11 0.6806 ([0.5635; 0.8221] 38.81 38.81 
12 0.6719 [0.5496; 0.8214] 34.31 34.31 
13 0.4662 [0.2056; 1.0570] 2.07 2.07 


Number of trials combined: 13 


RR 95%-C1 z p.value 
Fixed effects model 0.6821 [0.6064; 0.7672] =6.3741 < 0.0001 
Random effects model 0.6821 [0.6064; 0.7672] -6.3741 < 0.0001 


Quantifying heterogeneity: 
tau^2 = 0; H = 1 [1; 1.45]; I^2 = 0% (0%; 52.6%] 


Test of heterogeneity: 
9 d.f. p.value 
11 12 0.5292 
Method: Inverse variance method 
Kết quả từ mô hình ñxed-effects và random-effects một lần nữa cho chúng 
ta bằng chứng để kết luận rằng beta-blocker có hiệu nghiệm trong việc làm 


giảm nguy cơ tử vong. 
H— 
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# Biểu đổ forest 


> forest (res, lwd=3) 


h 
› 
Ũ 
Ũ 
, 
. 
. 





" 
là -~ 
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"Thực ra, trong khoa học nói chung, chúng ta đã có một truyễn thống lâu 
đời về việc duyệt xét bằng chứng nghiên cứu (review), duyệt xét kiến thức hiện 
hành. Nhưng các duyệt xét như thế thường mang tính định chất (qualitative 
review), và vì tính định chất, chúng ta khó mà biết chính xác được những khác 
biệt mang tính định lượng giữa các nghiên cứu. Phân tích tổng hợp cung cấp 
cho chúng ta một phương tiện định lượng để hệ thống bằng chứng. Với phân 
tích tổng hợp, chúng ta có cơ hội để: 

«_ Xem xétnhững nghiên cứu nào đã được tiến hành để giải quyết vấn để; 

« _ Kết quả của các nghiên cứu đó như thế nào; 

« _ Hệ thống các tiêu chí lâm sàng đáng quan tâm; 

« _ Rà soát những khác biệt về đặc tính giữa các nghiên cứu; 

« _ Cách thức để tổng hợp kết quả; và 

« _ Truyến đạt kết quả một cách khoa học. 

Mục đích của phân tích tổng hợp, xin nhắc lại một lần nữa, là ước tính 
một chỉ số ảnh hưởng trung bình sau khi đã xem xét tất cả kết quả nghiên cứu. 
hiện hành. Một kết quả chung như thế giúp cho chúng ta đi đến một kết luận 
chính xác và đáng tin cậy hơn. 

Hai ví dụ trên đây hi vọng đã giúp ích cho bạn đọc hiểu được “cơ chế” và 
ý nghĩa của một phân tích tổng hợp. Hi vọng bạn đọc có thể tự mình làm một 
phân tích như thế khi đã có dữ liệu. Thực ra, tất cả các tính toán trên có thể thực 
hiện bằng một phấn mềm như Microsoft Excel. Ngoài ra, một số phần mềm. 
chuyên môn khác (như SAS chẳng hạn) cũng có thể tiến hành những phân tích 
trên. Các phép tính trong phân tích tổng hợp thật đơn giản. Vấn để của phân 
tích tổng hợp không phải là tính toán, mà là dữ liệu đằng sau tính toán. 
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Phân tích tổng hợp cũng không phải là không có những khiếm khuyết. 
Trong nghiên cứu người ta có câu “rác vào, rác ra”, tức là nếu các đữ liệu được 
sử dụng trong phân tích không có chất lượng cao thì kết quả của phân tích 
tổng hợp cũng chẳng có giá trị khoa học gì. Do đó, vấn để quan trọng nhất 
trong phân tích tổng hợp là chọn lựa dữ liệu và nghiên cứu để phân tích. Vấn 
để này cần phải được cân nhắc cực kì cẩn thận để đảm bảo tính hợp lí và khoa 
học của kết quả. 
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Tóm tắt phân tích tổng hợp 
ĐỐI VỚI CÁC BIẾN SỐ LIÊN TỤC ĐỐI VỚI CÁC BIẾN SỐ NHỊ PHÂN. 
Nhóm 1 (số mẫu, trung bình, độ lệch chuẩn): _ |Nhóm 1 (số mẫu, số sự kiện): 
Pụ, Xụ, SụiÍ= 1,2,3,~.k tụ, Xụ;Í=1,2,3,....k 





Nhóm 2 (số mu, trung bình, độ lệch chuắn): * 2 (số mẫu. số sự kiện): 





Hài, Xạy, Sạ, Hạ, Xạy;Ì= 1,2, 3, ...k 
Độ ảnh hưởng (effect size, ES): Độ ảnh hưởng (effect size, ES) tính bằng tỉ số. 
d,=xy—Xụ nguy cơ RR: 


=-(EH=) 


Biến chuyển sang logarithm:Ø, = log(RR,) 
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Phương sai của đ, : 






sà ~( =#j+ 


'ụ +1, " 


Phương sai của Ổ,: 





Sai sổ (standard error) của đ,: 


HS, 


















Sư, 


h 
Ước số ảnh hưởng chung: d= ` Jf,4, / 
DỊ 





$ư, 


mỊ 


h 
Ước số ảnh hưởng chung: Ø = 3” Jf,0, / 
H) 








: 
Phương sai của đ: sŠ = 1/5) IW, 


h 
Phương sai của q: $Ẻ =LSH, 





Khoảng tin cây 95%: đ +],96 Hà 


Khoảng tin cây 95%: Ø +1,96X+ÍS”. 









h 
Index of homogenety: Q = 3 W,(d, ~ đ)` 






h 
Index of homogenelty: Ø = 3 W,(, ~ 6) 


DI 














Index of heterogeneity: /? = sẻ Index of heterogeneity: ƒ? = s_n 
Xem xét publlcatlon bias: Xem xét publicatlon bias: 

Phân tích hồi qui tuyến tính: d,=a+ 6*N,.... |Phản tích hồi qui tuyến tính: q=đ+*N, 
(N là tổng số mẫu của nghiên cứu j. (N là tổng số mẫu của nghiên cứu j). 

Xem ý nghĩa thống kẻ của 6. Xem ý nghĩa thống kê của b. 

Ước tính phương sai giữa các nghiên cứu __ |Ướctính phương sai giữa các nghiên cứu 


(between-study variance): 


&~) 
Ô SE 


$5 


mm 
Em 


»w, 


7? =max| 0, &¬ 





(between-study variance): 
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_>, Á.. 


ch Phương pháp Bootstrap 


ăm 1979, Giáo sư Bradley Efron (1) giới thiệu phương pháp phân tích 

có tên là “Bootstrap”. Chỉ trong vòng vài năm, phương pháp Bootstrap 

(2) được phát triển thêm và ứng dụng rất phổ biến, mà có người nói 
ví von là sự lan rộng của phương pháp này như là một trận... cháy rừng! Trong 
thực tế, cộng đồng thống kê học xem phương pháp Bootstrap là một cuộc cách 
mạng trong khoa học thống kê. Trong chương này, tôi sẽ giải thích ý tưởng và 
vài ứng dụng phổ biến của phương pháp Bootstrap. Tôi sẽ không giải thích lí 
thuyết đằng sau phương pháp Bootstrap, nhưng hi vọng qua vài ứng dụng, bạn 
đọc sẽ tìm hiểu những cơ sở lí thuyết của phương pháp này. 

Một trong những chức năng chính yếu của thống kê là tóm lược một mẫu 
nghiên cứu (sample) và khái quát hoá đữ liệu (hay phát hiện) ra một quần thể 
(population) mà mẫu được thu thập. Chúng ta biết rằng các chỉ số liên quan 
đến mẫu được gọi là stafistic. Một số statistic cơ bản là trung bình, trung vị, độ 
lệch chuẩn, tỉ lệ, v.v. Dĩ nhiên, một statistic hay chỉ số thống kê như số trung 
bình chẳng hạn sẽ dao đồng từ mẫu này đến mẫu khác, và chúng ta muốn biết 
mức độ dao động chung quanh trung bình quần thể. Chúng ta có thể dùng lí 
thuyết xác suất để ước tính tất cả các giá trị trung bình mẫu khả di, và trình 
bày trong một phân bố gọi là phân bố mẫu (sampling distribution). 

Nhưng trong nhiều trường hợp chúng ta không có lí thuyết xác suất để 
xây dựng một phân bố mẫu. Chẳng hạn như chúng ta không có phương pháp 
toán nào để xây dựng phân bố mẫu cho trung vị. Trong những trường hợp này, 
phương pháp Bootstrap có thể giúp chúng ta giải quyết vấn để một cách lịch 
thiệp. Thật vậy, với Bootstrap, chúng ta có thể tạo ra phân bố mẫu cho bất cứ 
chỉ số thống kê nào mà có khi chẳng cần đến lí thuyết xác suất. 
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17.1 Lấy mẫu có hoàn lại và không có hoàn lại 

Để hiểu phương pháp Bootstrap, chúng ta phải điểm qua hai cách lấy 
mẫu: lấy mẫu có hoàn lại (sampling with replacement) và lấy mẫu không có 
hoàn lại (sampling without replacement). Để minh hoạ cho hai cách lấy mẫu, 
giả dụ chúng ta có một quẩn thể gốm 10 giá trị như sau: 

population = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 

Lấy mẫu không hoàn lại có nghĩa là mỗi lấn lấy một giá trị từ quần thể, 
giá trị đó không được hoàn lại cho quần thể. Vì thế, giá trị của mẫu luôn 
luôn đặc thù, không giống nhau. Trong R, chúng ta có hàm sample (x, n„ 
replace=F) để lấy mẫu không hoàn lại. Ví dụ: 

> sample(population, 5, replace=F) 

[1] 91538 

“Trong hàm trên, chúng ta lấy mẫu với 5 đối tượng từ quần thể population, 
và không có hoàn lại. Chú ý tất cả các giá trị mẫu không giống nhau. Chúng ta 
có thể lấy mẫu nhiều lần, và mỗi mẫu có giá trị khác nhau: 


> sample(population, 5, replace=F) 

[1] 7 8 5 610 

> sample(population, 5, replace=F) 

11272531 

> sample(population, 5, replace=F) 

(1}] 32769 

Lấy mẫu có hoàn lại có nghĩa là lấy một giá trị từ quần thể, rồi bỏ giá trị 
mới lấy ra vào quần thể đó, và lần hai tiếp tục lấy một giá trị khác (nhưng cũng 
có thể là giá trị cũ). Trong R, chúng ta có hàm samp1e (x, n„ replace=1) 
giúp lấy mẫu có hoàn lại: 

> sample(population, 5, replace=T) 

(1119541 

Trong hàm trên, chúng ta lấy 5 giá trị từ quấn thế population, nhưng có 
hoàn lại. Chú ý giá trị 1 lặp lại 2 lần. Chúng ta có thể lấy nhiều mẫu như thế và 
kết quả cũng có thể lặp lại hơn 2 lần, hay không lặp lại: 

> sample(population, 5, replace=T) 

(1187733 
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> sample(population, 5, replace=T) 
[1] 4 1010 2 10 

> sample(population, 5, replace=T) 

(1] 2 9 4 610 

Phương pháp bootstrap dựa vào ý tưởng lấy mẫu có hoàn lại. Ý tưởng chủ 


đạo của bootstrap là dùng dữ liệu của một mẫu nghiên cứu để xây dựng một 
quần thể, với mục tiêu là xấp xi phân bố mẫu của một chỉ số thống kê. 


17.2 Giải thích bootstrap: xác định khoảng tin cậy 95% cho trung vị 
Chúng ta muốn xác định khoảng tin cậy 95% (KTC95) cho số trung vị. 
Nhưng không có lí thuyết thống kê nào cung cấp một giải pháp để xác định 
KTC95 cho số trung vị. Trong trường hợp nảy, phương pháp bootstrap có thể. 
rất có ích để đáp ứng mục tiêu. Để cụ thể hoá vấn để, chúng ta có số liệu về đau 
thấp khớp của 11 bệnh nhân như sau: 
0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 0.05, 0.30, 
0.05, và 0.25 


hay dùng ngôn ngữ R: 
pain=c(0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 0.05, 
0.30, 0.05, 0.25) 


(Chú ý chỉ số càng cao, độ đau càng nghiêm trọng). Số trung bình của 11 
bệnh nhân là 0.163 và độ lệch chuẩn 0.112. Vì số trung bình thấp hơn 2 lần 
độ lệch chuẩn, chúng ta có thể kết luận rằng biến số này không tuân theo luật 
phân bố chuẩn. Số trung vị của pa i n là 0. 1 5: 

> median (pain) 

(1] 0.15 

Vấn để bây giờ là xác định khoảng tin cậy 95% của số trung vị. Nói cách. 
khác, nếu nghiên cứu được lặp lại 1000 lấn, và mỗi lần chọn 11 đối tượng, thì 
KTC95 của số trung vị ra sao. Phương pháp bootstrap rất có ích để giải quyết 
vấn để. Phương pháp này được tiến hành như sau: 

+ Bước 1: Bắt đấu bằng mẫu gốc x,, x„ x,„... x,. Trong ví dụ trên: 


0.05, 0.05, 0.05, 0.05, 0.10, 0.15, 0.20, 0.25, 0.25, 
0.30, 0.35- 
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«_ Bước 2: Chọn ngẫu nhiên nở cá nhân từ mẫu gốc với qui trình lấy mẫu. 


có hoàn lại. Mỗi lấn chọn mẫu, tính số trung vị và tạm gọi số này là mm,. 


+ _ Bước 3: Lặp lại bước hai N lấn (N thường là 1000 hay 10000 hay thậm 


Mẫu 
Mẫu 





chí 1 triệu - tùy theo nhu cầu). Trong trường hợp trên, 10 mẫu đầu tiên 
có thể là: 








0:05 km B.10 0.05 0.20 0.20 0.05 0.25 0.10 0.10 0.30 3 0.10 
P.05 0.25 0.30 0.05 0.30 0.30 0.05 0.05 0.25 0.05 0.35 => 0.25 
b.35 0.10 Ð.05 0.25 0.05 0.05 0.20 0.25 0.15 0.25 0.10 3 0.15 
b.05 tới p.10 0.25 0.15 0.05 0.20 0.05 0,10 0,25 0.05 -> 0,10 
0.30 0.28 .05 0.25 0.25 0.05 0.20 0.05 0.25 0.05 0.05 3 0.20 
0.05 0.28 p 10 0.05 0,05 0.15 0.25 0,05 0.05 0.05 0,05 ® 0,05 
D.05 Gai 0.25 0.05 0.05 0.30 0.20 0.25 0.30 0.05 0.35 >> 0.20 
: 0.05 0.05 D.20 0.05 0.10 0.05 0.05 0.10 0.20 0.10 0.05 3 0.05 
9: Mon dời b.10 0.25 0.20 0.25 0.25 0.20 0.35 0.25 0.35 => 0.25 
10: 0,05 0.05 D.05 0,25 0,35 0,25 0,25 0,15 0,20 0,20 0,15 -> 0,24 





v.v. 








(Chú ý: số phía sau 3 có nghĩa là số trung vị cho từng mẫu) 


« _ Bước 4: Đến đây chúng ta có N số trung vị. Sắp xếp N số từ thấp đến 


ngữ 


cao và đánh số: 1, 2, 3,.... N. Chọn số trung vị ở hạng 2.5% và 97.5%, 
của N số trung vị, và đó chính là khoảng tin cây 95%. Chẳng hạn như 
nếu N = 1000 lần, thì khoảng tin cậy 95% chính là số trung vị hàng thứ 
25 và 975. 


Các bước tính toán trên có thể thực hiện bằng ngôn ngữ R (hay một ngôn 
hay phần mềm nào mà bạn đọc quen thuộc) rất dễ dàng. Đối với R, các 


mã sử dụng (và giải thích kèm theo) như sau: 


# nhập các số liệu gốc vào một vector có tên là x 
pain = e(0.05,0.15,0.35, 0.25, 0.20,0.05,0.10, 0.05, 0.30, 0.05, 0.25) 


# bước 2 - xác định xem có bao nhiêu số liệu trong vector x 
n = length (pain) 


# muỗn lầy 10000 mẫu từ số liệu gốc, còn gọi là bootstrap samples 
B = 10000 


# tạo một vector mới để chứa số trung vị 
median = numeric (B) 
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# bắt đầu lẫy B mẫu và mỗi mẫu tính toán số trung vị 
for (Ì in 1:B) 
{ 
bs.sample = sample(pain, n„ replace=T) 
median[i] = median (bs.sample) 
} 
# Bước 3: ước tính khoảng tỉn cậy 95% 
quantile (median, probs=c(0.025, 0.975)) 
Hàm quantile cho chúng ta biết khoảng tin cậy 95% của số trung vị là 0.05 
đến 0.25. Chúng ta cũng có thể xem phân bố của 10000 số trung vị mẫu: 


> hist(median, col="blue", border="white", main="") 


FC TT 


005 010 015 020 025 030 035 


Frequency 
1000 1500 2000 


500. 





median. 


Qua ví dụ trên, chúng ta có thể tóm tắt phương pháp bootstrap như sau: 
phương pháp bootstrap là một phương pháp mô phỏng dựa vào dữ liệu thực 
tế để dùng cho suy luận khoa học. Phương pháp này có thể tóm lược trong 
3 bước: 

1. Từ một mẫu nghiên cứu ø đối tượng, lấy nhiều mẫu bootstrap [có 

hoàn lại] và mỗi mẫu có ø đối tượng; 

2. Trong mỗi mẫu bootstrap, tính chỉ số thống kê 8*; 

3. Xem xét phân bố 9*. 
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17.3 Ứng dụng 1: So sánh hai số trung vị 


Số liệu dưới đây là số ngày sống sót của hai nhóm chuột. Nhóm thứ nhất 
là nhóm chứng (không được điểu trị), và nhóm thứ hai là nhóm được điểu trị. 
"Thời gian sống sót của nhóm 1 (trung vị) là 46 ngày, và nhóm điểu trị là 94 
ngày. Câu hỏi đặt ra là điểu trị có thật sự ảnh hưởng đến thời gian sống sót: 


Nhóm chúng (n = 9): 52, 104, 146, 10, 51, 30, 40, 27, 46 

Nhóm điểu trị (n = 7): 94, 197, 16, 38, 99, 141, 23 

Chúng ta có thể ứng dụng phương pháp bootstrap để giải đáp câu hỏi 
trên. Chúng ta sẽ dùng R như sau: 


# nhập dữ liệu 
control = c(52, 104, 146, 10, 51, 30, 40, 27, 46) 
treatment = c(94, 197, 16, 38, 99, 141, 23) 


# mẫu bootstrap 10000 
B = 10000 


£ định danh hai biển cho 2 nhóm 
con = rep(NA, B) 
trt = rep(NA, B) 


‡ lây mẫu bootstrap. 

for (i in 1:B) ( 
con[i] = median (sample(control, replace=T)) 
trt[i] = median (sample(treatment, replace=T)) 
đif[i] = trt[i]-con[i] 

} 


† tìm khoảng tin cậy 95% của dif 
ci.bs = c(quantile(dif, c(0.025)), quantile(dif, c(0.975))) 


# tạo dataframe để vẽ biểu đổ 
đif£ = data.frame (di£) 


1ibrary (ggplot2) 

P = ggplot (data=diff, aes(x=dif)) 

P =P †* geom histogram(aes(y=..density..), binwidth=5, 
color="black", fill="white") 

P =P + geom density(alpha=0.2, fil1="#FF6666") 

P =P † geom vline(xintercept=0, col="#BB0000", 
1inetype= "dashed ") 

P=P + geom viine(xintercept=ci.bs(1], col="#BB0000”, 
1inetype="longdash ") 

P=P † geom viine(xintercept=ci.bs[2], col="#8B0000"”, 
1inetype="longdash ") 

P=P + xiab("Difference") 

Đ 


'lpe/eulun heploerg 


003 


082 ~ 


densty 


001 


000 ~ 





> quantile(dif, c(0.025, 0.5, 0.975)) 
2.5% 50% 97,5% 
-29 48 101 


Chúng ta thấy tính trung bình, hiệu số của 2 trung vị là 48 ngày (tính 
trung bình, nhóm được điểu trị sống lâu hơn nhóm chứng 48 ngày), nhưng 
khoảng tin cậy 95% dao động từ -29 đến 101 ngày. Nói cách khác, nhóm điều 
trị có thể có thời gian sống sót thấp hơn nhóm chứng 29 ngày, hoặc cao hơn 
nhóm chứng 101 ngày. Với khoảng tin cậy 95% như thế, chúng ta không thể 
kết luận hiệu quả của điều trị về thời gian sống sót. 


17.4 Ứng dụng 2: So sánh hai tỉ lệ 

Bảng số liệu dưới đây tóm lược một nghiên cứu về aspirin và bệnh tim. 
mạch ở người đàn ông trung niên. Nghiên cứu được thiết kế theo mô hình thử 
nghiệm lâm sàng đối chứng ngẫu nhiên (randomized controlled trial). Theo 
đó, một nhóm gồm 22071 nam được chia thành 2 nhóm một cách ngẫu nhiên: 
nhóm thứ nhất bao gồm 11037 người được cho uống aspirin mỗi ngày, và 
nhóm hai bao gồm 11034 người không uống aspirin (còn gọi là nhóm chứng). 
Các nhà nghiên cứu muốn biết aspirin cho giảm nguy cơ bệnh nhối máu cơ 
tim. Kết quả sau 3 năm nghiên cứu có 104 người trong nhóm điểu trị và 189 
người trong nhóm chứng bị nhồi máu cơ tim: 
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Câu hỏi nghiên cứu là tỉ lệ (hay nguy cơ) bệnh của hai nhóm có thực sự 
khác nhau. Một phương pháp đơn giản nhất để trả lời câu hỏi trên là so sánh 
hai nguy cơ (risk). Trong y khoa, nguy cơ có thể xem như là xác suất mắc 
bệnh. Dựa vào số liệu trên, chúng ta có thể tính nguy cơ mắc bệnh của nhóm 
aspirin là 

Risk,= 104 / 11037 = 0.0094 
và nguy cơ của nhóm chứng: 
Risk, = 189 / 11034 = 0.0171 


Tỉ số của hai nguy cơ (Risk, / Risk,) thường được gọi là risk ratio (RR). 
Nếu RR = 1, thuốc không có hiệu quả; nếu RR < 1, aspirin giảm nguy cơ bệnh; 
nhưng nếu RR > 1 thì điểu đó có nghĩa là aspirin tăng nguy cơ bệnh. Trong 
trường hợp trên, RR = 0.0094 / 0.0171 = 0.55. Nói cách khác, nguy cơ mắc 
bệnh trong nhóm aspirin bằng 55% nhóm chứng. Một cách khác để kết luận 
là aspirin giảm nguy cơ nhồi máu cơ tim 45%. 

Nhưng vấn để là ước tính KTC95 của RR, và qua đó chúng ta có thể suy. 
luận về hiệu quả của aspirin. Trong thực tế, chúng ta có thể ước tính KTC95 
bằng lí thuyết xác suất [3], nhưng ở đây, chúng ta sẽ ứng dụng phương pháp 
bootstrap để ước tính KTC95 cho RR. 

# nhập dữ liệu cho 2 nhóm 

n = c(11037, 11034) 

disease = c(104, 189) 


# tạo 2 biển có tên là aspirin và control. Mỗi biển bao gỗm 
# giá trị 1 (bệnh), 0 (không bệnh). 

Ví dụ: hàm rep(1, disease[l]) tạo ra 

# 104 đối tượng với giá trị 1. 

Tương tự rep(0, n[1]-disease[l]) tạo ra 

# 11037-104 đổi tượng với giá trị 0. 

Hàm c(rep(1, disease[l]), rep(0, 

# n[1]-disease[1])) là nhập hai vector thành một và gọi 
là aspirin. 
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aspirin “= E(rep(1, đisease[l]) Ni l2) Aualse2 


control = E(rep(1, đisease[2]) ep (0 (21-disease [2] ) ) 


# xác định| số mẫu bootstrap 
B = 10000 


# tạo ra hai vector trỗng cho nhóm |aspirlin Wả E€onEFroI 
bs1 = rep(NA, B) 
bs2 = rep(NA, B) 


# lây mẫu bootstrap 
for (¡ in 1:B) ( 
resamplel = sample(aspirin, n[l] 


đis1 = sum(resamplel) 





resample2 = sample(control, n{[2] 
dis2 = sum(resample2) 
bs1[i] = dis1/n[1] 
bsz2[i] = dis2/n[2] 

Ù 











RR = bsl/bs2 
quantile(RR, c(0.025, 0.50, 0.975) 


Với hàm quantile trên, chúng ta sẽ thấy RR trung bình là 0.55 (tức như 
chúng ta tính “thủ công”). Hơn nữa, khoảng tin cậy 95% của RR dao động 
trong khoảng 0.43 đến 0.70. Nói cách khác, aspirin giảm nguy cơ bệnh từ 31%, 
đến 57%. Vì khoảng tin cậy 95% đểu dưới 1, chúng ta có chứng cứ để kết luận 
aspirin có hiệu quả giảm nguy cơ bệnh nhồi máu cơ tim. 

Chúng ta có thể dùng ggplot2 để vẻ biểu đồ phân bố của RR. Để vẽ biểu 
đồ này, trước hết chúng ta phải đưa 10000 giá trị RR vào một dataframe tạm 
gọi là rz. Sau đó vẽ biểu đồ phân bố, và vẽ khoảng tin cậy 95%. 

# đưa khoảng tin cậy 95% vào biễn ci.bs 

ci.bs = c(quantile(RR, 0.025), quantile(RR, 0.975)) 


# tạo ra một dataframe 
rr = data.£frame (RR) 
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1ibrary (ggplot2) 
P = ggplot (đata=rr, aes (x=RR)) 


P =P + geom histogram(aes (y=..đensity..)„ 
bindwidth=0.02, col= "blue ", fill= "white ") 








P =P +† geom density(alpha=0.2, fil1= " #FF6666 ") 
P =P + geom vline(xintercept=l, col= "#BB0000 ", 
1inetype= " dashed "') 

P =P + geom vline(xintercept=ci.bs[l], col= " #00AA00 "„ 
l1inetype= " longdash " ) 

P =P † geom vline(xintercept=ci.bs[2], col= " #00AA00 ", 


1inetype= " longdash "' ) 
P 





Dĩ nhiên, với phương pháp bootstrap, chúng ta có thể tính hiệu số 
(Risk, - Risk,) thay vì tỉ số nguy cơ (Risk, / Risk,). 
17.5 Ứng dụng 3: So sánh với phương pháp cổ điển 


Dữ liệu sau đây được thu thập từ một nghiên cứu đánh giá một phương. 
pháp can thiệp lên bệnh nhân mất trí nhớ. Mỗi bệnh nhân phải trải qua 20 test 
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về xử lí tình huống hàng ngày, như tự làm vệ sinh, thay quần áo, mở cửa bằng 
chìa khoá, v.v. Số liệu dưới đây phản ảnh phần trăm bệnh nhân thành công 
trong số 20 test. 

Nhóm can thiệp (n = 11): 0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 0.05, 0.30, 
0.05, 0.25 

Nhóm chứng (n = 8): 0, 0.15, 0, 0.05, 0, 0, 0.05, 0.10 

Câu hỏi nghiên cứu là can thiệp có hiệu quả tăng sự độc lập của bệnh 
nhân. Giả thuyết là phần trăm làm đúng của nhóm can thiệp không khác với 
nhóm chứng. Chúng ta có thể dùng phương pháp kiểm định t để kiểm định 
giả thuyết: 

treated = c(0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 

0.05, 0.30, 0.05, 0.25) 

control = c(0, 0.15, 0, 0.05, 0, 0, 0.05, 0.10) 


t.test(treated, control) 
> t.test(treated, control) 
Welch Two Sampie t-test 


data: treated and control 

tt“ 3.0583, d£ ~ 15.485, p-value = 0.007736 

alternative hypothesis: true đifference in means is not 

equal to 0 

95 percent confidence interval: 

0.03655926 0.20321347 

sample estimates: 

mean of x mean o£ 

0.1636364 0.0437500 

Chúng ta thấy giả thuyết không có hiệu quả có thể bác bỏ vì trị số 
P =0.0077, và khoảng tin cậy 95% khác biệt giữa hai nhóm là 0.037 đến 0.203. 

Nhưng phương pháp kiểm định t có vấn để về giả định, vì số liệu không 
tuân theo luật phân bố chuẩn, và phương sai của hai nhóm cũng không tương 
đương nhau. Do đó, chúng ta sẽ ứng dụng phương pháp bootstrap để kiểm. 
định giả thuyết. Chúng ta sẽ làm theo các bước: 
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._ Lấy mẫu từ nhóm điểu trị 

.. Lấy mẫu từ nhóm chứng 

Tính hiệu số của 2 số trung bình 

Lặp lại bước 1-3 B lần 

Xem xét phân bố để xác định khoảng tin cậy 95%, 
Chúng ta triển khai các bước trên qua R như sau: 


treat = c(0.05, 0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 
0.05, 0.30, 0.05, 0.25) 


control = c(0, 0.15, 0, 0.05, 0, 0, 0.05, 0.10) 
n1 = length(treat) 


MB 


n2 = length (control) 
B = 10000 
difference = numeric (B) 
no.effect = 0 
for (i¡ in 1:B) ( 
bs.treat <- sample(treat, n1, replace=T) 


bs.control <- sample(control, n2, replace=T) 


đifference[i] = mean (bs.treat) - mean (bs.control) 


if (difference[i] < 0) no.effect = no.effect+l 
! 


Chúng ta tìm hiểu trong số 10000 mẫu, có bao nhiêu mẫu mà can thiệp 


có ảnh hưởng: 


> no.e£fect/10000 
[1] 5e-04 


Ở một góc độ đơn giản, chúng ta có thể nói xác suất can thiệp có hiệu quả 


là 1 ~ 0.0005 = 0.9995 hay 99.959. 


Khoảng tin cậy 95% giữa 2 nhóm dao động trong khoảng 0.05 đến 0.19: 


> quantile(difference, probs=c(0.025, 0.50, 0.975)) 
2.5% 50% 97.5% 
0.04659091 0.11931818 0.19261364 


Chúng ta có thể xem qua phân bố của khác biệt giữa hai nhóm: 


hist (difference, breaks=20, col="blue", border="white") 
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Hbstogram of difference 
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Chúng ta chú ý khoảng tin cậy 95% bootstrap của hai chỉ số trung bình. 
giữa hai nhóm (0.05 đến 0.19) không khác nhiều so với phương pháp cổ điển 
(0.037 đến 0.203). Điểu này cho thấy phương pháp cổ điển khá “robust” khi 
dữ liệu không đáp ứng các giả định phổ biến. 

Nói tóm lại, phương pháp phân tích bootstrap dựa vào khái niệm tái chọn. 
mẫu (resampling) và mô phỏng (dựa trên dữ liệu thực tế) để tìm phân bố cho 
một chỉ số thống kê. Trong thực tế, phương pháp bootstrap đã được ứng dụng 
cho rất nhiều vấn để phức tạp mà phương pháp cổ điển không có giải pháp. 
Cấn phải nói rằng phương pháp bootstrap không thể biến dữ liệu xấu thành 
đữ liệu tốt được. Trong vài trường hợp, phương pháp bootstrap vẫn thất bại 
khi nghiên cứu được thiết kế quá kém hay không phù hợp. Việc ứng dụng 
phương pháp bootstrap do đó đòi hỏi suy xét cẩn thận. 


Chú thích và Tài liệu tham khảo. 


[1] Efron B (1979). Bootstrap methods: Another look at jackknife. Ann. 
Stat. 7, 1-26. 

[2] Danh từ “bootstrap” xuất phát từ cuốn tiểu thuyết “The Adventures of 
Baron Munchausen” của Rudolph Erich Raspe. Trong tiểu thuyết, vị bá 
tước bị rớt xuống đáy một cái hồ, ông nghĩ rằng ông có thể tự mình thoát 
khỏi bằng cách dùng dây giấy (bootstrap) để từ từ kéo mình lên khỏi hổ. 
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[3] Phương pháp ước tính khoảng tin cậy 95% của một tỉ số nguy cơ RRỊ 
dựa vào phương pháp Greenwood. Theo đó, RR được hoán chuyển 
sang đơn vị log; tính phương sai và sai số chuẩn và khoảng tin cậy 95%. 
cho logRR; hoán chuyển ngược lại đơn vị RR. Để dễ theo đõi, tôi in lại 
kết quả nghiên cứu trong bảng đưới đây: 





số số 
[ ma [ #5 ung TK... 
Aspirin. 11037 104 10937 























Placebo (chứng) 11034 189 10845 





Bước 1: hoán chuyển từ RR sang logRR. Chúng ta biết rằng RR = 0.55, nên. 
logRR = log(0.55) = -0.598 
Bước 2: tính phương sai, sai số chuẩn và khoảng tin cậy 95% của logRR: 





L1 1L 1 
logR)=[-L - -L_._1_ Ì`00i47 
YS0SERR) P nan} 189 nu) 








Sai số chuẩn của logRR: 

SE(log RR) = [var(log RR) =0.0147 =0.121 

Khoảng tin cậy 95% của logRR: 

logRR + 1.96xSE(logRR) = -0.598 + 1.96x0.121 
= -0.835, -0.361 


Bước 3: hoán chuyển ngược lại đơn vị tỉ số: 
95%CI RR = exp(-0.835), exp(-0.361) = 0.43, 0.70 
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_x4t, À.. 


® Phương pháp Bayes 








phản nghiệm, nhưng là một phương pháp có nhiểu khiếm khuyết vốn 
đã được chỉ ra ngay từ khi phương pháp này ra đời vào khoảng 100 năm 
trước. Phương pháp thống kê cổ điển được tiến hành 3 bước: 


«_ Bước thứ nhất, phát biểu giả thuyết vô hiệu H0; 
« _ Bước thứ hai, thu thập dữ liệu D; và 
« _ Bước thứ ba, ước tính xác suất D xảy ra nếu H0 là thật: P(D | H0). 


Đó là qui trình chứng minh đảo ngược (proof by contradiction) hay còn 
gọi là phản chứng. Qui trình này có thể áp dụng trong toán học, nhưng khi ứng 
dụng vào khoa học thực nghiệm thì nhiều khi trở nên... vô duyên. Trong khoa 
học thực nghiệm, chúng ta muốn biết với dữ liệu thu thập được, xác suất giả 
thuyết H0 đúng là bao nhiêu, chứ không ai lại đặt câu hỏi nếu giả thuyết H0 là 
đúng thì xác suất D xảy ra là bao nhiều! 


Có thể minh họa trường hợp trên qua vấn để chẩn đoán và xét nghiệm 
trong y khoa. Phương pháp cổ điển hiện nay cũng giống như trả lời câu hỏi 
“nếu tôi mắc bệnh thì xác suất kết quả xét nghiệm dương tính là bao nhiêu”. 
Nhưng trong thực tế, bệnh nhân muốn biết ngược lại: “nếu kết quả xét nghiệm 
là dương tính, xác suất mà tôi mắc bệnh là bao nhiêu?” Phương pháp phân tích 
cổ điển không thể trả lời câu hỏi sau. Trong vài năm gấn đây, một phương 
pháp phân tích “mới” ra đời và đang dần trở thành phổ biến trong nghiên cứu 
khoa học, vì nó có thể trả lời câu hỏi mà chúng ta quan tâm: với dữ liệu thực tế 
này, xác suất giả thuyết của tôi đúng là bao nhiêu? 

369 —_ 
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PZ pháp phân tích dữ liệu cổ điển và phổ biến dựa vào lí thuyết 


18.1 Giới thiệu khái niệm Bayes 


Nói là "mới” nhưng trong thực tế thì không mới, bởi vì cơ sở lí thuyết của 
phương pháp này đã ra đời từ thế kỉ 18. Đó là suy luận theo trường phải Bayes 
(Bayesian inference) do Thomas Bayes để xuất vào năm 1763 [1]. Thomas Bayes 
là một linh mục, nhưng cũng là một nhà toán học tài tử. Tuy là “tài tử” nhưng di 
sản của ông để lại (chỉ một bài báo duy nhất) làm thay đổi cả thế giới khoa học, 
thay đổi cách suy nghĩ về sự bất định trong khoa học, và chỉ ra một phương pháp. 
suy luận hoàn toàn logic. Ngày nay, phương pháp Bayes được ứng dụng trong 
hấu hết tất cả lĩnh vực khoa học, kể cả trong công nghệ thông tin (ứng dụng 
'Bayes trong việc ngăn chặn những thư rác điện tủ), tiên lượng kinh tế, phân tích 
các mối liên hệ xã hội, và lí giải qui trình suy nghĩ của con người. Ngày nay, suy 
luận theo trường phái Bayes được nhắc đến trên báo chí đại chúng chứ không 
chỉ trong báo khoa học. Những tờ báo lớn như New York Times, Economist, 
Guardian, v.v. đều thường xuyên nhắc đến phương pháp suy luận Bayes. 


Suy luận Bayes dựa vào định lí Bayes (Bayesian Theorem). Có thể phát 
biểu định lí Bayes theo ngôn ngữ hàng ngày như sau: những gì chúng ta biết 
là tổng hợp những gì chúng ta đã biết cộng với chứng cứ thực tế. Có thể nói 
rằng Định lí Bayes thể hiện cách suy nghĩ rất phố biến của tất cả chúng ta: đó 
là chúng ta tiếp thu kiến thức một cách tích lũy. 

Để minh hoạ cho ý tưởng trên, chúng ta thử xem qua ví dụ sau đây. Giả 
dụ rằng chúng ta có số liệu về chiểu cao (tính bằng cm) của 10 người như sau: 
156, 158, 160, 162, 164, 166, 168, 170, 172, 175 

Với số liệu trên, chúng ta có thể tính trị số trung bình là 165.1 cm. 

Nhưng nếu tôi biết rằng số liệu đó được thu thập trên 670 người, và trong 
đó có 20 người với chiểu cao 156 cm, 30 người với chiếu cao 158 cm, 50 người 
có chiểu cao 160 cm, v.v. (xem bảng dưới đây). Thì số trung bình bây giờ chắc 
chắn không phải là 165.1 cm, vì nó còn tuỷ thuộc vào thông tin về số đối tượng 



































cho từng chiếu cao — - 
156 20 0030 
158 30 0045 
160 s0 0075 
162 100 0.149 
164 150 0224 
166 130 0.194 
168 100 0.149. 
170 50. 0075 
172 30 0.045 
175 10 0015 
Tổng s70 1.000 
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Nếu chúng ta diễn tả số người bằng xác suất (cột 3 trong bảng trên), thì 
xác suất đó có thể xem như là một trọng số. Bây giờ, chiểu cao trung bình có 
thể tính như là tổng tích số của chiếu cao và trọng số: 


(156x0.030) + (1580.045) +.... + (175x0.015) = 164.85 



































CHIẾU CAO. SỐ NGƯỜI  XÁCSUẤT XP, 
156 20 0030. 466 
158 30' | 0.045 | 707 
160 50 | 0075 Ỉ 1194 
162 100. Ỉ 0.149. Ỉ 24.18. 
164 150 Ỉ 0224 Ỉ 36.72 
166 130 | 0194 | 3221 
168 100. | 0.149 Ỉ 25.07 
170 50' | 0075 Ï 1269 
172 30 Ï 0.045 Ỉ 7.70. 
175 10 | 0015 | 261 

Tống 670 Ï 1000 164.85 














Như vậy, chiểu cao trung bình bây giờ chính xác là 164.85 cm, chứ không 
phải 165.1 cm. 


Ví dụ trên đây cho thấy kết quả phân tích có thể thay đổi khi chúng ta có 
thông tin. Trong trường hợp 1, chúng ta không có thông tin nào khác là 10 giá 
trị chiếu cao, và chỉ có thể dựa vào đó để tính giá trị trung bình. Nhưng trong 
trường hợp 2, chúng ta có thông tin tiến định về phân bố của chiểu cao trong 
cộng đống, nên số trung bình chính xác hơn. 


Suy luận Bayes có thể phát biểu một cách đơn giản như sau: 
__ [hông tin đang có] " [Thông tin trước đây] = [Thông tin mới] 


— Trong ví dụ trên, thông tin đang có là 10 giá trị vế chiếu cao; thông tin 
trước đây chính là xác suất phân bố của từng chiểu cao; và thông tin mới là 
tích số của hai thông tin đang có và thông tin trước đây. 


Như đã nói ở trên, suy luận Bayes dựa vào định lí Bayes. Định lí Bayes dĩ 
nhiên cũng có thể mô tả một cách đơn giản qua xác suất. Gọi H là giả thuyết, 
và D là dữ liệu thực tế, Định lí Bayes phát biểu rằng xác suất H với điểu kiện D 
xảy ra - kí hiệu P(H | D) - là: 








_ P(D|H)x P(H) 
'ựr\b)-~ ĐH, 
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Trong đó 

« __P(H) là xác suất giả thuyết trước khi làm thí nghiệm; và 

+ P(D| H) là xác suất dữ liệu xảy ra với điểu kiện giả thuyết H là đúng; 

« _P(D) là phân bố của dữ liệu, có thể xem là một hằng số. 

Thay vì dùng H như là một giả thuyết, chúng ta có thể thay H bằng 9 
như là một thông số chúng ta muốn biết. Trường phái cổ điển hay frequentist 
(tẩn số) xem 8 là cố định, nhưng trường phái Bayes xem Ô có một phân bố 
riêng, và do đó, không cố định. Chúng ta cũng có thể viết theo ngôn ngữ của 


hàm số: 
Z(P?)/0) 
Z#(°|D)=—————ˆ 
VU mm 
hay 
#£(01D)a/(P|s)x/(0) 

Một cách khác để phát biểu Định lí Bayes là: 

Likelihood x Prior Probability of Hypothesis = Posterior Probability 
of Hypothesis 

“Trong đó, 

«_ Likelihood = P(D | H), hay ƒD | 6), tức phân bố của dữ liệu; 

« _ Prior Probability of Hypothesis = P(H) hay /(6), có thể xem là xác suất 

tiển định; 

+ _ Posterior Probability of Hypothesis = P(H | D), hay ƒ{8 | D), có thể xem 

là xác suất hậu định. 

Nhìn qua định lí trên, chúng ta thấy suy luận Bayes có 3 thông tin. Thông, 
tin thứ nhất là thông tin mà chúng ta muốn biết, thuật ngữ tiếng Anh gọi 
là posterior information - thông tin hậu định. Thông tin thứ hai là thông tin 
chúng ta đã biết, tiếng Anh là prior information - thông tin tiền định. Và, 
thông tín thứ ba là thông tin thực tế, thuật ngữ tiếng Anh là iikelihood. Ở đây, 
“thông tin” có nghĩa là xác suất hay phân bố. 


18.2 Ứng dụng phương pháp Bayes l: Ước tính một tỉ lệ 

Một cuộc điểu tra dịch tế học trong một quần thể 1500 người cho thấy tỉ lệ 
loãng xương là 25%. Chúng ta sẽ diễn giải tỉ lệ này có nghĩa gì - qua lăng kính 
lí thuyết Bayes. Dĩ nhiên, nếu cuộc điểu tra được lặp lại ở một quần thể khác, tỉ 
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lệ có thể không phải là 25% nhưng là một con số khác, có thể thấp hơn, nhưng 
cũng có thể cao hơn 25%. Do đó, thông số tỉ lệ loãng xương, 6, cần phải xem 
như là một phân bố. Để phân tích theo phương pháp Bayes, chúng ta cần thông 
tin tiến định. Thông tin tiến định phải được mô tả bằng một luật xác suất. 

Chúng ta có thể tưởng tượng tỉ lệ loãng xương có thể dao động trong 
khoảng 1% đến 100%. Đơn giản nhất là mỗi tỉ lệ có xác suất tiền định như 
nhau, còn gọi là uniform distribution. Nói cách khác, xác suất có tỉ lệ loãng. 
xương 1% cũng bằng với xác suất có tỉ lệ loãng xương 100%. Chúng ta biết 
rằng xác suất tiến định này không hợp lí, vì không có cộng đồng nào có tỉ lệ 
loãng xương 1% hay 100%. 




















XÁC SUẤT TIỀN ĐỊNH 
TỈLỆLOÁNG XƯƠNG. (UNIFORM DISTRIBUTION). 
1% 001 
2% 001 
3% 001 
100%. | 001 











Một luật phân bố rất có ích để mô tả thông tin tiển định là luật phân bố 
beta (beta distribution). Luật phân bố beta có 2 thông số, tạm gọi là a và b, và 
được định nghĩa như sau: 


_T@+ð) s«4(p_ yỳ"i 
P&I5)* T0) (-x}" 


Trong đó P(x | a, b) là xác suất của giá trị x xác định bởi 2 thông số a và b. 
T(a+b) và F(a), F() là luật phân bố gamma. Theo lí thuyết xác suất, số trung 
bình và phương sai của phân bố beta với hai thông số a và b là: 





Trung bình: 
m=al(a+b) li 
và phương sai: 
Xe—RP—. l2] 





+ð}'(a+b+I) 
hoặc: 








Chúng ta cẩn ước tính hai thông số a và b. Chúng ta biết rằng nhiều nghiên 
cứu trước đây cho thấy tỉ lệ loãng xương thường dao động trong khoảng 20% 
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đến 35%, rất ít quần thể nào có tỉ lệ loãng xương thấp hơn 20% hay cao hơn 
35%. Dựa vào dữ liệu này, chúng ta có thể suy luận rằng tỉ lệ loãng xương 
trung bình là khoảng 27%, 
m=0.27 
và khoảng tin cậy 95% là từ 20% đến 35%, và do đó độ lệch chuẩn là 
s =(0.35 - 0.25) / 2 = 0.05 
hay v = (0.05)? = 0.025. Dựa vào hai công thức trên và sau vài thao tác đại 
số, chúng ta có: 
a+b= [m(1- m)/s] - 1 
'Thay thế ø = 0.27 và y = 0.025, chúng ta có 
a+b=6.884 
Nhưng [1] cho biết 
a = mía + b) 
Thay thếzm và a+b vào phương trình trên, chúng ta có a=0.27*6.884= 1.86, 
và b = 6.884 - 1.86 = 5.024. 
9 ~ Beta(1.86, 5.024) 
Chúng ta có thể thể hiện phân bố này bằng R (Biểu đồ 1): 
curve (đbeta (x, 1.86, 5.024), from=0, to=1, 
viab="Xac suat", xlab="Ti le loang xuong", 1ty=1, 1wd=2) 














s+ 
§ T | 
š 
s+ 
Ôn T T T T T 
00 92 04 06 08 10 
Tile loang xuong 


Biểu đồ 1. Phân bố thông tin tiền định beta(1.86, 5.024). Trục hoành là tỉ lệ loãng xương, 
dao động 0 đến 1; trục tung là xác suất tiền định cho từng tỉ lệ. Biểu đồ giả định rằng 
tỉ lệ trung bình là 27%, rất ít quần thể có tỉ lệ dưới 20% hay trên 359. 
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Dữ liệu thực tế 

Số liệu thực tế là con số 25% tỉ lệ loãng xương. Đây là một biến nhị phân, 
nên chúng ta có thể giả định rằng biến này tuân theo luật phân phối nhị phân. 
(binomial distribution). 

Gọi n là số người được hhỏi, k là số người trả lời loãng xương (yes), luật 
phân bố nhị phân phát bên La bc suất có k người trả lời yes với tỉ lệ trả lời 
yes (kí hiệu 6) là: | 

P(k:n,Ø)=(‡}*(I-ø)** 
Nói theo ngôn ngữ xác suất, k phân bố theo luật phân bố nhị phản: 
k~ Bin(9, n) 
_ Thuật ngữ Bayes để cập đến phản bố trẻn là "likelihood” - khả dĩ. Chúng. 
ta biết rằng có 1500 người được hỏi (tức z = 1500), và với tỉ lệ 25%, chúng ta. 
biết rằng có 375 người loãng xương. 





Thông tin hậu định (posterior information) 


“Theo Định lí Bayes, thông tin hậu định là tích số của thông tin tiền định 
và likelihood. Nói cách khác: 


Posterior = Prior x Likelihood 
Chúng ta có: 
Priors Ø“ˆ(L— Ø)”Ì , trong đó a = 1.86, b = 5.024. 
Likelihood « Ø*(L— Ø}*”; trong đó, k = 375 và n = 1500. 
Do đó, posterior œ8“!(1- 6)*”8*(1- 6)*+. Vài thao tác đại số, chúng ta có: 
Posterior « Ø****!(|— Ø)"*° 


'Tức là, thông số 9 (hậu định) tuân theo luật phân phối beta! Khi luật phân 
bố tiến định và hậu định có cùng luật phân bố, thuật ngữ Bayes gọi là conjwugated. 
Chúng ta có thể sử dụng R để thể hiện thông tin hậu định như sau: 

a=l.86; b=5.024; n=1500; k=0.25*1500 

curve (dbeta(x, a+k-l, b‡n-k-l), from=0.2, to=0.30, 

xlab="Ti le loang xuong", ylab="Xac suat", 1ty=l, 1wd=4) 


'lpe/fielun heploerg 








20 25 30 35 
=> — =-j 


Xac suat 


10 
L 











T T T T T T 
020 022 024 026 028 030 


Tileloang xuong. 


Biểu đồ 2. Phân bố thông tin hậu định 


Biểu đồ trên cho thấy tỉ lệ loãng xương (sau khi đã điều chỉnh cho thông 
tin tiền định) là ~25%. Dĩ nhiên, xác suất hậu định chịu ảnh hưởng xác suất 
tiến định, và điểu này cho thấy cần phải cẩn thận trong việc chọn luật phân bố 
cho xác suất tiển định trong phân tích Bayes. 


18.3 Ứng dụng phương pháp Bayes ll: So sánh hai tỉ lệ 
Bảng số liệu dưới đây thể hiện số bệnh nhân bị tai biến trong một nghiên 


cứu gồm 2 nhóm (tạm gọi là nhóm A và nhóm B). Nhóm 1 có tỉ lệ tai biến là 
559% (11/20), và nhóm 2 là 259% (5/20). 














NHÓM SỐ BỊ TAI BIẾN 'SỐ KHÔNG BỊ TAI BIẾN 
A 11 ° 
D 5 15 














Câu hỏi nghiên cứu là hai nhóm có cùng nguy cơ bị tai biến? Gọi 
X ~ Binomial(n,, p,) và p, = X / nụ và Y ~ Binomial(n,, p,) và p, = Y / n„. 
Chúng ta muốn biết phân bố của p, - p, ra sao. 


Thông tin tiển định cho ụ, và 4: Beta(a,, b,) và Beta(a,, b,). Thông tin 
hậu định: 


c1 (1<p}^! z22(t 


2 (PsP›)%Pi rì =p) 
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Chúng ta có thể triển khai bằng R như sau: 
#nhập dữ liệu 

x= 11; n1 = 20; alphal = 1; betal = 1 
= 5; n2 = 20; alpha2 = 1; beta2 = 1 





# mô phỏng 10000 giá trị của phân bỗ beta cho p1 và p2 
p1 = rbeta(10000, x + alphal, n1 - x + betal) 

p2 = rbeta(10000, y + alpha2, n2 - y + beta2) 

# tính hiệu số p2-pl và về biểu đổ 

rd = p2 - pH 

Plot (density (rd) ) 

quantile(rd, c(.025, 0.5, 0.975)) 


densitydefault(x=rd) 





Density 











T T T T T T 
0806 04 402 00 +02 
N=10000 Bandwidth=002004. 


> quantile(rd, c(.025, 0.5, 0.975)) 
2.5% 50% 91.5% 


~0.538766742 -0.273079884 0.009308546 


Kết quả trên cho thấy nhóm 2 có tỉ lệ tai biến thấp hơn nhóm 1 khoảng 
27%, nhưng khoảng tin cậy 95% dao động trong khoảng 0% đến 54%. Chúng ta 
cũng có thể tính xác suất nhóm 2 thấp hơn nhóm 1 bằng hàm tab1e (p2<p1), 
và kết quả là 97.3%. Tương tự, xác suất mà nhóm 2 thấp hơn nhóm I ít nhất là 
5% là 94.39 (Cab1e ( (p2+0..05) <p1)) 
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18.4 Ứng dụng phương pháp Bayes lIl: Một số trung bình 

Chúng ta thử xem qua một trường hợp lâm sàng sau đây: Nam bệnh nhân, 
60 tuổi, sức khỏe bình thường, BMI 23 kg/m”, không có tiển căn gia đình với 
bệnh tiểu đường. Tuy nhiên kết quả xét nghiệm gÌucose trong máu là 127 mg/dL. 
Theo tiêu chuẩn, ông được chẩn đoán là tiểu đường, nhưng ông nghỉ ngờ. Ông 
muốn biết nguy cơ thật mình mắc bệnh tiểu đường. Phân tích Bayes có thể giúp 
gì bác sĩ để nói chuyện với bệnh nhân? 

Trường hợp trên rất tiêu biểu trong lâm sàng. Trước một xét nghiệm sinh 
hóa với kết quả “dương tính” và biết rằng phương pháp xét nghiệm có những 
hạn chế về độ chính xác, người bác sĩ cũng như bệnh nhân muốn biết khả 
năng mình mắc bệnh là cao hay thấp. Vấn đế càng khó hơn khi kết quả xét 
nghiệm gần ngưỡng chẩn đoán bệnh (như glucose trên đây), người thầy thuốc 
phân vân không biết nên ra chẩn đoán mắc bệnh hay không mắc bệnh, bởi 
vì ai cũng biết rằng bất cứ xét nghiệm nào cũng không hoàn hảo. May mắn. 
thay, phân tích Bayes có thể trả lời câu hỏi khả năng bệnh nhân mắc bệnh tiểu 
đường là bao nhiêu. 


Có 3 yếu tố trong suy luận Bayes: đó là posterior probability, prior 
probability, và likelihood mà tôi đã để cập trong phấn trên. Chúng ta thử xét 
qua 3 thông tin trong công thức trên một cách chỉ tiết hơn như sau: 


“Thông tin tiển định là sự phân bố vế nồng độ glucose trong cộng đồng. 
Hai thông số để phản ảnh một phân bố là số trung bình và độ lệch chuẩn (hay 
phương sai). Nghiên cứu của chúng tôi [chưa công bố] trong cộng đồng người 
Việt cho thấy ở nam 60 tuổi, nồng độ glucose trung bình là 105 mg/dL và độ 
lệch chuẩn là 29.32 mg/dL. Gọi hai thông số này là: 


m, = 105 và s, = 29.32 


Đo lường nống độ glucose trong máu không phải hoàn toàn chính xác. 
Chúng ta biết rằng nống độ glucose trong máu dao động trong mỗi cá nhân 
ngay trong điểu kiện bình thường. Chẳng hạn như trường hợp dưới đây, khi 
bệnh nhân được đo glucose 5 lần liên tục trong 5 ngày, và kết quả như sau 
(mg/dL): 


127, 124, 125, 120, 126 


Nếu chỉ dựa vào kết quả ngày thứ nhất và ngày thứ năm, cá nhân này được 
phân vào nhóm tiểu đường (vì nồng độ glucose cao hơn hay bằng 126 mg/dL). 
Nhưng nếu dựa vào kết quả ngày thứ hai, thứ ba và thứ tư thì cá nhân không được 
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chẩn đoán tiểu đường. Đây là mộttình trạng bất định rất phổ biến trong lâm sàng 
và chẩn đoán. Khác với sự bất định trong chẩn đoán ung thư vú (khi độ chính 
xác được định lượng bằng độ nhạy, độ đặc hiệu hay tỉ lệ dương tính giả), sự bất 
định trong các đo lường mang tính liên tục (continuous variable) như nồng độ 
glucose được định lượng bằng hệ số tin cậy mà thuật ngữ tiếng Anh là coefficient 
öƒ reliability. 

Để ước tính hệ số tin cậy, người ta thường làm những nghiên cứu ngắn. 
hạn. Trong đó, một nhóm cá nhân được lấy máu và đo trên 2 lần (thường là 3 
lần). Từ dữ liệu đó, có thể ước tính phương sai nồng độ glucose. Phương sai 
này thực chất gồm có 2 thành phẩn: phương sai do dao động trung bình trong 
mỗi cá nhân (viết tắt là W) và phương sai do dao động giữa các cá nhân (B). Hệ 
số tin cậy (viết tất là R) được tính bằng cách lấy B chia cho tổng phương sai: 

R=B/(B+W) 

Hệ số tin cậy và đặc biệt là phương sai W là những thông tin tiền định rất 
quan trọng trong việc đi đến một chẩn đoán chính xác về lâu về dài. Nghiên 
cứu trước đây của chúng tôi cho thấy phương sai W là 815 mg/dL? (hay độ 
lệch chuẩn là 28.55 mg/dL) và hệ số tin cậy R = 0.86. 

Dữ liệu thực tế chính là nống độ glucose của cá nhân này được đo lường. 
nhiều lần thì chắc chắn nồng độ không phải là 127 nhưng có thể đao động theo. 
luật phân phối chuẩn. Do đó, chúng ta có thể phát biểu rằng đối với bệnh nhân, 
nồng độ glucose tuân theo luật phân phối chuẩn với trung bình 127 mg/dL và 
độ lệch chuẩn 28.55 mg/dL. Có thể thể hiện dữ liệu này như sau: 

m, = 127 và s, = 28.55 

“Thông tin hậu định được ước tính từ thông tin tiến định và dữ liệu thực 
tế. Phương pháp ước tính dựa vào định lí Bayes như trình bày trong [1]. Nhắc 
lại rằng thông tin tiển định tuân theo luật phân phối chuẩn N(105, 29.32), và 
dữ liệu thực tế cũng tuân theo luật phân phối chuẩn N(127, 28.55). Theo định 
lí Bayes: 

Xác suất hậu định = N(105, 29.32) x N(127, 28.55) 


Vài thao tác đại số có thể chứng minh rằng xác suất hậu định cũng tuân. 
theo luật phân phối chuẩn. Trong trường hợp luật phân phối hậu định có 
cùng hàm số với thông tin tiển định, thuật ngữ Bayes gọi là conjugate. Nói 
cách khác: 


Nữn, s) = N(105, 29.32) x N(127, 28.55) 
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Hay nói chung: 
ÁNứm, s) = N(m, s„) x Nứm,, s,) 


Trong đó, Nứn, s) là phân phối hậu định với thông số trung bình zm và độ. 
lệch chuẩn s. Có thể chúng minh dễ dàng rằng: 

mm 

vy 





Thay thế m, = 105, s„ = 29.32, mm, = 127 và s, = 28.55, chúng ta có: 


105 127 
29.32? M 28.55` 
mạ—c = ĐT BE" =1e 


+ 
2932” 28.55” 
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+ 
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Nói cách khác, nỗng độ glucose trung bình về lâu vẽ dài (hay nỗng độ 
thật) của cá nhân là 116 mg/dL, nhưng có thể đao động trong khoảng 75.8 đến 
156.2 mg/dL với xác suất 95% (tức 116-1.96x20.5 đến 116+1.96x20.5). Có thể 
hình dung phân bố glucose của bệnh nhân này như sau (bằng R): 

mean=1l6; sd=20.5; 1b=mean-1.96*sd; ub=mean+1.96*sd 
crit=126 


x= seq(~-4, 4, length=10000)*sd + mean 
hx = dnorm(x, mean, sd) 














plot (x, hx, type=”n” 
4i “x> cCrit 
lines(x, hx) 


„ xlab="Giucose (mg/dL”, ylab="Density") 


polygon(c(erit, x[i], ub), c(0,hx[i],0), col="zed") 


Nhưng chúng ta muốn biết P(glucose > 126). Bởi vì nồng độ glucose tuân 
theo luật phân phối chuẩn với trung bình 116 mg/dL và độ lệch chuẩn 20.5 
mg/dL, nên có thể mô tả bằng công thức sau đây: 





1 (gheese-116) 
lucose)=————==e BP 
/6ueose) 20.52 
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Xác suất trên chính là diện tích dưới đường Bơm diễn của hàm số glucose 
cho bệnh nhân đó. Theo đó: 


P(glucose > 126)= Ƒ. ƒ(glucose) = 0.312 
Nếu dùng R: 
1~pnorm(q=126,mean=116, sd=20.5) 


Nói cách khác, mặc dù nồng độ glucose của cá nhân này nằm trong 
ngưỡng chẩn đoán tiểu đường (127 mg/dL), nhưng vì biết được độ tin cậy 
của phương pháp xét nghiệm và thông tin tiến định trong cộng đồng, xác suất 
mà bệnh nhân có nồng độ glucose trên 126 mg/dL thật ra chỉ 31.2%, chưa 
đủ thuyết phục để chẩn đoán cá nhân này mắc bệnh tiểu đường, nếu chưa có 
thêm thông tin khác về bệnh nhân. 


Ví dụ trên đây cho thấy phân tích Bayes có ý nghĩa rất thiết thực. Thiết 
thực là vì kết quả phân tích có thể ứng dụng cho một cá nhân, chứ không hẳn 
một quần thể theo trường phái phân tích cổ điển frequentist. Khác với phương 
pháp cổ điển dựa vào giả định thông số (như trung bình và độ lệch chuẩn) 
là bất biến (ñxed) và áp dụng cho một quần thể, nhưng phương pháp Bayes 
không chấp nhận giả định đó vì mỗi cá nhân (mỗi bệnh nhân) có một profile 
riêng, một phân bố riêng cho cá nhân đó. Tuy nhiên, khó khăn trong phân tích 
Bayes là chúng ta phải chọn thông tin tiền định hợp lí, vì có khi thông tin tiển 
định ảnh hưởng đến kết quả của phân tích hậu định và dẫn đến kết luận thiếu 
độ tin cậy cao. Đây cũng là một yếu tố làm cho nhiều người ngần ngại khi tiếp 
cận với phương pháp Bayes vì họ không có thông tin tiến định. Tuy nhiên, 
trong thực tế thì chúng ta có thể sử dụng thông tin tiến định qua các luật phân 
bố xác suất rất hữu hiệu. 


18.5. Ứng dụng phương pháp Bayes IV: Diễn giải kết quả nghiên cứu 

“Trường hợp 1: Bổ sung vitamin D + calcium (CaD) và nhồi máu cơ tìm. 
Một phân tích dữ liệu của công trình nghiên cứu WHI mới công bố trên tập 
san BMJ (2) cho thấy phụ nữ dùng bổ sung calcium và vitamin D có nguy cơ 
nhồi máu cơ tim tăng (Bảng 1). Tì số nguy cơ là 1.22 và khoảng tin cậy 95%. 
đao động từ 1.0 đến 1.5. Bệnh nhân đang dùng bổ sung caÌcium và vitamin D 
rất quan tâm khi nghe tin này và muốn được bác sĩ tư vấn. Bác sĩ phải nói gì 
với bệnh nhân? 
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Bảng 1. Kết quả nghiên cứu WHI: tấn số nhối máu cơ tim (MI) 
trong nhóm dùng calcium và vitamin D (CaD) và nhóm giả dược (placebo) 








NHÓM CAN THIỆP. MỸ | KHÔNGM Ị TỐNG số. 
CaD 209 (248%) | — 8220 8429 
Placebo 168(203%) ' 8121 | 8289 














"Trường hợp 2: Strontrium ranelate và gãy xương đốt sống. Một công 
trình nghiên cứu lâm sàng đối chứng ngẫu nhiên (randomized controlled trial) 
về hiệu quả của một loại thuốc điểu trị loãng xương (strontium ranelate - SR) 
(3), trong đó 1442 bệnh nhân loãng xương được chia thành 2 nhóm: nhóm I 
gồm 719 người được điểu trị với SR, và nhóm placebo gồm 723 người. Sau 3 
năm điểu trị và theo đõi, kết quả cho thấy số ca gãy xương đốt sống trong nhóm. 
điểu trị là 46 (6.4%) và trong nhóm giả được là 88 (12.2%). Kết quả này có ý 
nghĩa lâm sàng hay không? 


Bảng 2. Kết quả nghiên cứu hiệu quả của strontium ranelate 
trong điều trị loãng xương ở phụ nữ sau mãn kinh 











BỆNH NHÂN. 'BỆNH NHÂN. 
NHÓM CANTHIỆP. Í sAy XƯƠNG ĐỐT SỐNG | KHÔNGGÁY XƯƠNG | TỔNG SỐ 
Strontlum ranelate 46 (6.4%) 673 719 
Placebo. Ỉ 88 (12.2%) | 635 | 72 








Chúng ta thử tiếp cận hai câu hỏi trên qua suy luận Bayes. Xin nhắc lại 
Định lí Bayes trong bối cảnh hiện tại: gọi H, là giả thuyết thuốc có hiệu quả, D 
là dữ liệu quan sát được, xác suất H, đúng với dữ liệu D là: 


_ P(W,)xP(D|M,) 
"nh ——_ 

Trong đó, P(H,) là xác suất H, đúng (còn gọi là xác suất tiến định - prior 
probability); P(D | H,) là xác suất dữ liệu quan sát được nếu H, đúng; và P(D) 
là xác suất dữ liệu xảy ra. 


Xác suất tiền định 

“Trước khi thực hiện một công trình nghiên cứu, chúng ta thường đã có 
vài ý kiến về khả năng của một giả thuyết. “Khả năng” có thể mô tả bằng xác 
suất. Chẳng hạn như đối với mối liên hệ giữa CaD và nhồi máu cơ tim (nghiên 
cứu 1), thiếu những lí do sinh học nào để tin rằng có một mối liên hệ như 
thế; cho nên chúng ta có thể phát biểu sơ khởi rằng xác suất có mối liên hệ là 
rất thấp, như 7 = 0.05 (5%). Trong nghiên cứu 2 (strontium ranelate) và gãy 
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xương đốt sống, chúng ta có nhiều nghiên cứu cơ bản cho thấy SR có thể tăng 
mật độ xương và do đó có thể giảm nguy cơ gãy xương. Nhưng để có lí do 
thực hiện một nghiên cứu lâm sàng chúng ta phải chấp nhận khả năng 50/50 
(equipoise), tức xác suất có hiệu quả là  = 0.5. 

Trong thực tế, xác suất tiền định có thể “phát biểu” bằng các luật phân 
bố xác suất. Bởi vì dữ liệu của cả hai nghiên cứu có thể mô tả bằng tỉ số nguy 
cơ (relative risk - RR). Tỉ số nguy cơ có thể đao động, chẳng hạn như từ 0.2 
(thuốc giảm nguy cơ 80%) đến 10 (thuốc tăng nguy cơ 5 lần). Nhưng chúng ta 
biết rằng khả năng thuốc giảm nguy cơ 90% hay tăng nguy cơ gấp 5 lấn là rất 
thấp, nếu không muốn nói là không khả di. Vì thế có thể thể hiện xác suất tiền 
định bằng luật phân phối chuẩn. 

“Trong phân phối chuẩn, thay vì thể hiện bằng RR, chúng ta thể hiện 
bằng logarit RR (kí hiệu logRR) tiện hơn. Do đó, thay vì phát biểu RR = 1, 
chúng ta phát biểu logRR = 0 (vì log của 1 là 0); thay vì RR = 0.2, chúng ta 
viết logRR = -1.61; và thay vì RR = 5, chúng ta viết logRR = 1.61. Phân phối 
chuẩn của logRR được xác định bởi 2 thông số: trung bình và phương sai. 
Gọi số trung bình của logRR là m, và phương sai của logRR là vụ. Với giả 
thuyết vô hiệu, chúng ta giả định rằng không có sự khác biệt giữa hai nhóm. 
(như CaD và giả dược, hay giữa SR và giả được), do đó: 

m,=0 

Nhưng chúng ta nghĩ rằng logRR có thể dao động từ -2.3 đến 1.61, với 
khả năng logRR<-2.3 là 2.5%, và khả năng logRR>1.61 là 2.5%. Do đó, độ lệch. 
chuẩn tiển định (standard deviation, kí hiệu s,) có thể ước tính bằng: 


$,=[L61 ~ (-1.61)] / 3.92 = 0.821 
Vì thế, phương sai (độ lệch chuẩn bình phương) bằng: 
v„ = (0.997) = 0.675 
Có thể thể hiện phân bố này bằng Biểu đồ 3 sau đây: 


mean=0; sd=0.821; lb=mean-1.96*sd; ub=mean+1l.96*sd 


x = seq(~4, 4, length=10000)*sd + mean 
hx = dnorm(x, mean, sd) 





plot(x, hx, type="n", xlab="LogRR", ylab="Density") 
¡ <— x>= lb & x <=ub 


lines (x, hx) 
polygon (c(1b,x[i],ub), c(0,hx[i],0), col="red") 
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Biểu đồ 3. Phân bố xác suất tiến định thể hiện “niềm tin; với giả thuyết khởi đấu 
là trung bình RR = 1 (tức LogRR = 0) và độ lệch chuẩn 0.821. Diện tích tô màu đỏ 
là khoảng tin cậy 95%, thể hiện xác suất RR < 0.2 là 2.5% và xác suất RR > 5 cũng 2.59. 


Dữ liệu thực tế 


Dữ liệu thực tế được trình bày trong Bảng 1 và 2. Tuy nhiên, vì chúng ta 
làm việc với tỉ số nguy cơ qua đơn vị logarit, nên dữ liệu phải được trình bày 
lại đưới hình thức logRR và khoảng tin cậy 95%. Để tiện theo dõi, tôi trình bày: 
lại dữ liệu trong bảng số liệu dưới đây: 









































NHÓM CAN THIỆP. BỆNH KHÔNG BỆNH TỔNG SỐ 

Bối cảnh chung. 

Nhóm can thiệp a D đ+b, 
Nhóm không can thiệp. € 4d c+đ 
Nghiên cứu 1 

CaD 209 (2.48%) 8220, 8429 
Placebo. 168 (2.03%) 8121 8289 
Nghiên cứu 2 

Strontium ranelate 46 (6.4%) 673 719 
Placebo. 88 (12.2%) 635 723 











'lpe/ffelun heploerg 


Trước hết chúng ta cần phải ước tính RR, và sau đó là logRR. Gọi tỉ lệ mắc 
bệnh trong nhóm điểu trị là p, và nhóm giả được là p„ chúng ta có thể ước tính 
tỉ số nguy cơ RR như sau: 


RR =#L 
L) 


Do đó, logRR (sẽ kí hiệu là zn,) có thể ước tính đơn giản là: 
mị = log(RR) 
Theo lí thuyết thống kê, phương sai của logRR (kí hiệu v,) là: 


v._—Ua_ „Úc 
° ` 1/(a+b) 1/(e+đ) 








Cố nhiên, độ lệch chuẩn cũng có thể tính từ v, như sau: s, = 


Dựa vào những công thức trên, chúng ta có thể ước tính zm, và v, cho hai 
nghiên cứu trên như sau: 









CHỈ TIÊU LÂM SÀNG. 


Nhồi máu cơ tim 





NGHIÊN CỨU. 
1. CaD và placebo. 
2.58 và placebo __ |Gãyxương đốtsống | -06431 








0.102 
0.174 






0.0008, 0.402 
-0.984, -0.302 























Có thể thể hiện phân bố của dữ liệu thực tế của hai nghiên cứu trên qua 
hai Biểu đồ 4 dưới đây: 

par (mfrow=e (1,2) ) 

mean=0.2016; sd=0.102; 1b=mean-l.96*sd; ub=mean+1.96*sd 

x = seq(~4,4,length=1000) *sd + mean 

hx = dnozm (x,mean, sd) 

plot (x„ hx, type="n", xlab="1ogRR (CaD)", ylabE"Density", main=" ") 


lines (x„ hx) 


mean=-0.6431; sđd=0.174; 1b=mean-1.96*sd; ub=mean+1.96*sd 
x = seq(~4,4,1ength=1000) *sd + mean 

hx = dnorm (x,mean, sd) 

Pplot(x, hx, type="n", xiab="LogRR (Strontium ranelate) ", 
ylab="DensiEy", main=" ") 


lines(x, hx) 
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'Từ kết quả trên, có thể hoán chuyển ngược lại đơn vị RR và khoảng tin cậy 
95%. Khoảng tin cậy 95% của m, có thể ước tính đơn giản bằng lí thuyết phân 
phối chuẩn: tức là lấy trung bình cộng hoặc trừ cho 1.96 lấn độ lệch chuẩn: 

KTC95% = m, + 1.965, 

Kết quả trình bày trong cột sau cùng của bảng số liệu trên. Cố nhiên, bởi 
vì đơn vị logarit chỉ dùng cho tính toán, và trong thực tế chúng ta cẩn hoán 
chuyển sang đơn vị thường (tức RR) để có thể hiểu được. Do đó, có thể lấy 
hàm số mũ của các kết quả trên như sau (ví dụ cho nghiên cứu 1): 


« - RR (nhồi máu cơ tim) = e2°!* = 1.22 
« _ và khoảng tin cậy 95%: e°%* đến e°*° = 1.00 đến 1.50 
Kết quả hoán chuyển có thể xem bảng dưới đây. 











2.SRvàplacebo  |Gảyxươngđốtsống| 052 | 037.074 





Cần nói thêm rằng, đối với phân tích cổ điển, qui trình phân tích ngừng 

ở đây. Có lẽ nhà nghiên cứu kết luận rằng CaD tăng nguy cơ nhồi máu cơ tim. 

22% và ảnh hưởng này đao động trong khoảng 0% đến 50% (P = 0.05). Tương. 
hpahslnodan 


tự, trong nghiên cứu 2, strontium ranelate giảm nguy cơ gãy xương đốt sống. 
48%, nhưng mức độ ảnh hưởng có thể giảm từ 28% đến 63% (P < 0.001). Cả 
hai kết quả đều có ý nghĩa thống kê. 


Xác suất hậu định 


Nhưng nếu chịu khó suy nghĩ, chúng ta sẽ không hài lòng với kết luận đó. 
Trong trường hợp CaD và nhối máu cơ tim, một tỉ số nguy cơ 1.22 có thể nói 
là một sự ảnh hưởng rất thấp, nhất là trong điểu kiện khoảng tin cậy 95% có 
thể là không có ảnh hưởng (phần hạ của khoảng tin cậy 95% bằng 1). Nói cách 
khác, kết quả này quá “mong manh”. Chỉ cần thay 2 ca nhồi máu cơ tim trong, 
nhóm chứng là kết quả sẽ không có ý nghĩa thống kê. Chúng ta hỏi: có phải kết 
quả trên đo ngẫu nhiên, hay là một kết quả đương tính giả. 

_ Vấn để thứ hai là kết quả trên có ý nghĩa lâm sàng hay không? Nền nhớ 
rằng kết quả trên dựa vào giả thuyết vô hiệu là nguy cơ mắc bệnh của hai 
nhóm bằng nhau. Tức là dù có khác biệt 0.1% vẫn được xem là có khác biệt. 
Nhưng trong thực tế 0.1% khác biệt chẳng có ý nghĩa lâm sàng nào cả. Do. 
vậy, để trả lời câu hỏi này, chúng ta cần phải xác định ngưỡng tỉ số nguy cơ để 
có thể cho là có ý nghĩa lâm sàng. Theo y văn trong linh vực tim mạch, phần 
lớn những nghiên cứu lâm sàng được thiết kế để chứng minh can thiệp giảm. 
nguy cơ từ 15% trở lên. Một ngưỡng tương tự cũng thường hay thấy trong các 
nghiên cứu loãng xương. Do đó, chúng ta sẽ để ra ngưỡng 15% để đánh giá 
tầm quan trọng lâm sàng. Nói cách khác, chúng ta có một tiêu chí mới: 

« _ Nếu CaD (hay bất cứ can thiệp nào) tăng nguy cơ nhồi máu cơ tim cao. 

hơn 15% (tức tỉ số nguy cơ cao hơn 1.15 hay logRR > 0.14) sẽ được 
xem là có hại; 


« _ Tương tự, nếu can thiệp nào giảm nguy cơ gãy xương đốt sống trên 
15% (tức tỉ số nguy cơ thấp hơn 0.85, hay logRR < -0.16) thì sẽ được 
xem là thật sự có ý nghĩa lâm sàng. 

Phân tích Bayes nhằm trả lời những câu hỏi trên. Để trả lời câu hỏi trên, 
chúng ta cẩn phải ước tính xác suất hậu định (posterior probability) của một 
giả thuyết. Thông số mà chúng ta quan tâm là tỉ số nguy cơ RR. Nhưng như để 
cập trên, để cho tiện lợi trong tính toán, chúng ta sẽ dựa vào đơn vị logRR. Gọi 
số trung bình của logRR (hậu định) là mm và phương sai của logRR là y. Định 
lí Bayes phát biểu rằng: 

Nữ, v) = N(m,„ vạ) x Nứm, v,) 
387 — 
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Trong đó N là viết tất của phân bố chuẩn (Normal distribution), và 
những thông số trong ngoặc là số trung bình và phương sai. Công thức trên 
hàm ý nói rằng phân bố logRR hậu định bằng phân bố logRR tiền định nhân 
cho phân bố logRR của dữ liệu thực tế. Sau vài thao tác toán, có thể chứng 
minh rằng: 

L..YN..' 





m=» —M 
1 1 
c5 a- 
Vụ 





Công thức trên cho thấy zm chính là một trọng số trung bình (weighted 
average) của logRR tiến định và logRR thực tế. Trọng số ở đây là số đảo phương 
sai (1/v„ và L/v,). Phương sai nhỏ có trọng số lớn, và ngược lại, phương sai lớn 
(tức dữ liệu có dao động lớn) có trọng số nhỏ. Vì xác suất hậu định tuân theo 
luật phân phối chuẩn, cho nên 2 thông số trên có nghĩa là hàm phân phối 


chuẩn của xác suất hậu định là: 
1 (x—m) 
2m si + Ì 


“Trong đó, x là số logRR khả dĩ. Hàm ƒ(x) cung cấp một số ước tính rất có 
ích. Chẳng hạn như chúng ta có thể đặt câu hỏi: xác suất mà CaD tăng nguy cơ 
nhồi máu cơ tim trên 15% là bao nhiêu? Như nói trên, tăng nguy cơ trên 15%. 
có nghĩa là P(logRR > 0.14). Do đó, đáp số cho câu trả lời là: 


#()= 





Pr(logRR>0.14)= [”. /(x) 


thực hiện bằng phần mềm Excel hay R một cách rất dễ dàng. 


Quay lại với hai nghiên cứu trên, chúng ta có thể ước tính hai thông số 
hậu định m và v cho nghiên cứu 1 như sau: 


"Tuy công thức có vẻ phức tạp, nhưng thật sa cả những tính toán có thể 


0 +0.2016 

m=9615 00194 ~0 lọ và ==¬ 
—— + —— + 
0.675 0.0104 0.675 0.0104 
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Một tính toán tương tự cho nghiên cứu 2 sẽ cho, ra kết quả mm = -0.624 
và v = 0.029. Chúng ta có thể tóm lược 3 thông tin vừa phân tích trong bảng 
dưới đây: 























Đơn vị logarit 
1.CaD và placebo | 0 | 0675 | 02016 | 00104 | 0197 | 0010 
2. 5R và placebo. 0 | 0675 | -0643! | 00303 | -0615 | 0029 











Kết quả trên cho thấy, logRR hậu định không thay đổi nhiều so với logRR. 
thực tế. Lí do là vì chúng ta bắt đấu bằng thông tin tiển định với logRR = 0. 
Ngoài ra, vì phương sai của thông tin tiến định cao (phản ảnh sự bất định về 
kiến thức của chúng ta), nên trọng số của thông tin tiển định không cao. 

Dựa vào kết quả trên, chúng ta có thể ước tính xác suất (logRR > 0.14) cho. 
nghiên cứu 1 và (logRR < -0.16) cho nghiên cứu 2. Kết quả là: 


« _ Nghiên cứu 1: P(logRR > 0.14) = 0.725 
« _ Nghiên cứu 2: P(logRR < -0.16 


Nói cách khác, xác suất CaD tăng nguy cơ nhồi máu cơ tim trên 15% là 
72.5%, và xác suất SR giảm nguy cơ gãy xương đốt sống trên 15% là 99.6%. 
Cần nói thêm rằng, chỉ khi nào xác suất có hiệu quả lâm sàng trên 90% hoặc 
trên 95% mới có thể xem là đáng chú ý. Do đó, trong hai trường hợp trên, ảnh 
hưởng của CaD đến nguy cơ nhồi máu cơ tim không đáng chú ý, nhưng ảnh 
hưởng của SR đến nguy cơ gãy xương đốt sống là đáng chú ý. Có thể thể hiện 
hai xác suất trên đây qua Biểu đổ 5 dưới đây: 

par (mfrow=e (1,2) ) 

† plot for CaD and MI 

mean=0.197; sd=sgrt(0.01); lb=mean-l.96*sd; ub=mean+1l.96*sd 

crit=log(1.15) 

x = seq(-4, 4, length=10000)*sd + mean 

hx = dnorm(x, mean, sở) 


Pplot(x, hx, type="n”, xlab="LogRR", ylab="Density") 
i =x>crit 
lines(x, hx) 
polygon(c(crit, x[i], ub), c(0,hx[i],0), col="red"} 






# plot for SR and vert fx 
mean=-0.615; sd=sqrt(0.029); 1b=mean-1.96*sd; ub=mean+1.96*sd 
crit=log (0.85) 
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x = seq(-4, 4, length=10000)*sd + mean 

hx = dnorm(x, mean, sd) 

plot(x, hx, type="n", xlab="LogRR", ylab="Density")} 
i =“x<crit 

lines (x, hx) 
































polygon(c(crit, x[i], crit), c(0, hx[i],0), col="red") 
s- 
ề èề 
§ m¬ š 
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sg+ 
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Biểu đồ 5. Phân bố logRR cho nghiên cứu 1 (trái, CaD và nhồi máu cơ tim) 
và nghiên cứu 2 (bên phải, strontium ranelate và gãy xương đốt sống). 
Diện tích tô đậm là xác suất có ý nghĩa lâm sàng (tức xác suất RR > 1.15 hay logRR > 0.14. 
cho nghiên cứu 1, và RR < 0.85 hay logRR < -0.16 cho nghiên cứu 2). 


Xin nhắc lại, những kết quả trên là tính trên đơn vị logarit. Để đễ hiểu. 


hơn, chúng ta cẩn phải hoán chuyển sang đơn vị RR bằng cách lấy hàm số mũ 
của LogRR và khoảng tin cậy 959. 


Với nghiên cứu 1, LogRR = 0.197, phương sai v = 0.01, nên độ 
lệch chuẩn là s=+Ý0,01=0.1. Từ đó, khoảng tin cậy 95% của LogRR là 
0.197 + 1.96x0.10 = 0.001 đến 0.393. Nói cách khác, RR = e"!” = 1.22, và 
khoảng tin cậy 959% là e"*' = 1.0 đến e°** = 1.48. Kết quả hoán chuyển được 
trình bày trong bảng số liệu sau đây: 





























NGHIÊN CỨU. m Ca RR 'KHOẢNG TIN CẬY 95%. 
1.CaD và placebo | __ 0.197 0410 122 1.00 đến 1.48 
2.SRvàplacebo | -0.615 0417 054 0.39 đến 0.75 








'lpe/fielun heploerg 


Những kết quả trên là bằng chứng để chúng ta có thể phát biểu rằng tỉ số 
nguy cơ nhối máu cơ tim liên quan đến CaD là 1.22, và xác suất 95% của tỉ số 
nguy cơ là từ 1.0 đến 1.48. Tương tự, chúng ta cũng có thể kết luận rằng tỉ số 
nguy cơ gãy xương đốt sống liên quan đến strontium ranelate là 0.54 và xác 
suất 95% là tỉ số này sẽ dao động trong khoảng 0.39 đến 0.75. Tuy nhiên, chỉ 
có ảnh hưởng của strontium ranelate đến nguy cơ gãy xương đốt sống là có ý 
nghĩa lâm sàng, còn ảnh hưởng của CaD đến nguy cơ nhồi máu cơ tim thì vẫn. 
còn bất định, chưa thể kết luận một cách khẳng định như nhóm tác giả viết. 

Xem xét kĩ kết quả phân tích trên, chúng ta có thể thấy rằng thông tin 
tiến định đóng vai trò quan trọng. Đó cũng là một khía cạnh của phương 
pháp Bayes bị phê bình khá nhiều. Những phê phán có thể tóm lược trong 
hai điểm chính: thông tin tiền định đến từ đâu, và thông tin tiển định có thể 
không khách quan. Cả hai phê phán đều hợp lí, nhưng cũng... không hợp lí. 
Hợp lí là vì việc xác định thông tin tiến định rất khó. Khó hơn là làm sao để 
định lượng khả năng của một giả thuyết. Tuy nhiên không hợp lí là vì trong 
thực tế, chúng ta có thể có khá nhiếu thông tin trước khi thực hiện một 
nghiên cứu lâm sàng, và do đó, không thể nói rằng không có thông tin. Vả lại, 
nếu không có thông tin về khả năng của một giả thuyết, chúng ta có thể khởi 
đầu bằng xác suất 50/50, tức hoàn toàn khách quan. Thực ra, nếu một nghiên 
cứu lâm sàng (như đánh giá hiệu quả thuốc) mà khả năng thuốc có hiệu quả 
hơn 50% là không có lí do gì để có nhóm chứng! Do đó, tất cả các nghiên cứu 
lâm sàng đối chứng ngẫu nhiên phải bắt đầu bằng xác suất tiến định là 50%, 
và đó cũng chính là một thông tin cho phân tích Bayes. Chính vì thế mà có 
người cho rằng không có lí do gì dữ liệu nghiên cứu lâm sàng không sử dụng 
phương pháp phân tích Bayes. 


Phân tích Bayes đòi hỏi tính toán phức tạp hơn phương pháp phân tích 
theo trường phái tấn số. Có nhiều vấn để quá phức tạp không/chưa ai có thể 
giải được! Tuy nhiên, một điểu rất may mắn là với sự phát triển của máy tính 
và thuật toán MCMC (Markov Chain Monte Carlo), hầu như bất cứ vấn để 
nào cũng có thể giải đáp được (mà toán học không giải được). Do đó, phương 
pháp Bayes càng ngày càng được ứng dụng trong nghiên cứu lâm sàng với 
nhiều thành công ngoạn mục. Người ta tiên đoán rằng phương pháp Bayes sẽ 
“thống trị” khoa học trong thế kỉ 21, và phương pháp tần số sẽ dấn dần lùi vào 
hậu trường do những khiếm khuyết cơ bản của nó. Kinh nghiệm của cá nhân 
chúng tôi cho thấy phương pháp Bayes giải quyết được nhiều vấn để nghiên 
cứu và cung cấp những câu trả lời mà trước đây còn tranh cãi [4-6], nhất là vấn 
để cá nhân hóa trong tiên lượng y khoa [7]. 
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Tóm lại, suy luận khoa học theo phương pháp Bayes là một suy luận dựa 


vào logic thông thường, mà bất cứ bác sĩ lâm sảng nào hay thậm chí người 
ngoài khoa học nào cũng nắm được. Đó là một cách tích lũy kiến thức. Những 
gì chúng ta đã biết (thông tin tiền định) cộng với những gì chúng ta thu thập 
được (dữ liệu thực tế) giúp cho chúng ta củng cố kiến thức tốt hơn (thông 
tin hậu định). Trong nghiên cứu lâm sàng, chúng ta muốn có câu trả lời cho 
2 câu hỏi: (a) với những đữ liệu quan sát được, xác suất có ảnh hưởng thật là 
bao nhiêu, và (b) xác suất ảnh hưởng có ý nghĩa lâm sàng là bao nhiêu. Chỉ có 
phương pháp Bayes trả lời được hai câu hỏi này. Phương pháp phân tích theo 
tấn số (frequentist) như trị số P không thể cung cấp câu trả lời cho hai câu hỏi 
trên. Chính vì thế mà suy luận theo phương pháp Bayes ngày càng được ứng 
dụng trong tất cả các linh vực khoa học và công nghệ. 
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® Hướng dẫn sử dụng WinBUGS 


TT khoảng một thập niên gấn đây, WinBUGS đã trở thành một 








chương trình máy tính phân tích thống kê quan trọng. WinBUGS do 

một nhóm chuyên gia thống kê thuộc Hội đồng Nghiên cứu Y khoa 
Anh (Medical Research Council - MRC) phát triển, với sự tài trợ trực tiếp 
của chính phủ Anh. Sự ra đời của WinBUGS và phiên bản trước đó là BUGS 
(Bayesian Inference Using Gibbs Sampling) là một trong những phát triển 
quan trọng nhất trong thế kỉ 21 trong khoa học thống kê học, vì chương trình 
này giải được rất nhiều vấn để mà trước đây người ta chỉ bàn luận trên lí 
thuyết. WinBUGS dùng phương pháp tính toán (Markov Chain Monte Carlo - 
MCMC) để thực hiện những tính toán rất phức tạp mà trước đây không ai giải 
được. Có thể nói không ngoa rằng nếu không có WinBUGS thì các mô hình 
phân tích theo phương pháp Bayes không có điện mạo như ngày nay. 

Do đó, chúng ta cần phải học WinBUGS. Bài này chỉ dẫn cách cải đặt và 
sử dụng WinBUGS cho phân tích thống kê theo mô hình Bayes. Tôi cũng minh 
họa hai phân tích đơn giản qua WinBUGS. Trong bất cứ vấn để kĩ thuật nảo, chỉ 
có thể thành thạo khi thực hành chứ không chỉ đọc. Do đó, bạn đọc có thể làm. 
theo những qui trình từng bước được mô tả trong bài để có thêm kinh nghiệm. 

'Vài năm gần đây, đã có khá nhiều tài liệu chỉ dẫn cách sử dụng WinBUGS. 
Tuy nhiên, kinh nghiệm của tôi cho thấy những tài liệu này không dẻ đọc chút 
nào! Thậm chí, có tài liệu viết khá cụ thể, nhưng vẫn làm cho những người 
mới làm quen với WinBUGS cảm thấy lúng túng và rối rắm. Do đó, tôi soạn 
bài này để giúp cho những người mới sử dụng WinBUGS lần đầu, và tôi sẽ cố 
gắng mô tả các qui trình sử dụng một cách chỉ tiết và cụ thể. 

393 —_ 
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19.1 Cài đặt WinBUGS 

'WinBUGS là chương trình được chạy từ máy tính cá nhân. Do đó, cần 

phải tải các nhu liệu từ website của winBUGS để cài đặt trong máy. 

» _ Truy cập website của nhóm thống kê Hội đồng nghiên cứu y khoa Anh: 
http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtm] 

« - Tải về máy các nhu liệu sau đây: WinBUGS14.exe và keys (WinBUGS14_ 
immortality_ key.txt). 

« _ Khởi động chương trình WinBUGSI14.exe, và nhu liệu này sẽ tự động 
cài đặt WinBUGS trong máy. Sau khi cài đặt xong, máy tính sẽ có một 
folder mới: 

C:\Program Files\WinBUGS14 
và trong đó có nhiều folder nhỏ khác, nhưng có lẽ folder liên quan nhất là 
C:\Program Files\WinBUGS14\Bugs 
5» Nên tạo ra một icon trong desktop để sử dụng WinBUGS về lâu về dài. 
Cách tạo icon có thể làm theo qui trình như sau: 
-_ Vào folder C:\Program Files\WinBUGS14 
-_ Dùng chuột bấm nút phải nhãn vào file có WinBUGS icon và chọn 
“Create Shortcut” 
eah Fie Foder 





Pnto Stt 
saal = 


334 Adtomwenepsdxdwe.. 
LẴ zmn+y Bì Air ceetng eneyped xoờc. 
th Sơ SendTo › 





Hình 1. Tạo ra shortcut cho WinBUGS 
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Nhưng trước khi sử dụng WinBUGS, chúng ta cẩn phải báo cho WinBUGS 
biết các mã số trong một file gọi là chìa khóa: WinBUGS14_immortality_ key. 
txt. Cách cài đặt khóa trong WinBUGS như sau: 


E8:)/1)2116-1) 
Tools Edit Attributes Info Model 


File 


Send Note... 


Exit 





Hình 2. Khởi động WinBUGS 






Fất Adrbưee Eío Mod Ifewce OEtors Doo»#p Mạ 
tDoounent 5e. 






Tre UE Gbjet.. 
Tơ Stưnp 
Tneen Clod: 








CeateFdld 
EspsndAl 
“Colapsa AI 
Fe, 








ncods Documert 





Hình 3. Cài mã khóa (key) 


- — Khởi động WinBUGS (từ 
desktop) 
° Click vào tab File và chọn 
New để mở một window mới 
hoàn toàn 


°Ö Mở fñle WinBUGSI4_ 
immortality_ key.txt (dùng notepad), 
và copy toàn bộ (Control-A) 

« Chuyển sang WinBUGS và 
dán vào window trống. Từ tab 
Tools, chọn Decode: 

Một box mới sẽ xuất hiện. 
Click vào Decode AlI. Đến đây 
thì chúng ta đã xong công đoạn 
cài đặt WinBUGS, và có thể sử 
dụng chương trình này một cách... 
lâu dài. 
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19.2 Phân tích dữ liệu với WinBUGS 

So với các chương trình máy tính về phân tích thống kê khác (như SAS, 
R, SPSS, v.v.), cách phân tích trên WinBUGS tương đối khó hơn. Tuy nhiên, 
các mô hình phân tích Bayes chỉ có thể thực hiện một cách hữu hiệu qua 
'WinBUGS, chứ không thể qua một chương trình khác. Ngay cả các chương 
trình như SAS và R có vài phần để phân tích Bayes nhưng vẫn còn rất “nhiêu 
khê” và rất chậm. Ngược lại WinBUGS có thể ứng dụng cho tất cả mô hình 
Bayes và rất hữu hiệu. Qui trình phân tích bằng WinBUGS có thể tóm lược 
qua 10 bước sau đây: 

Tóm lược qui trình chay một mô hình trên WinBUGS 





BƯỚC MÔTÀ 'WinBUGS 





Mõ tả mô hình 
(model specification) 


Kiểm tra lệnh và mô hình 
(model checking) 


3 |Nhập dữ liệu (data loading) Špecification Tool -> load data. 


File -> New 





File > Specificatlon = Specification Tool -> (check model) 
































4. |Chaythử(compile) Specifcation Tool -> compile 
5 |Giátrịkhởi đấu (initialvalues)_ |SpecificationTool -> gen inlts 

Thông số 
6 Í(gneclfcatonofperameten) | í© 92os->Samples=SesmpleMonitorTool 
7 |Mô phỏng (simulation) hoi sả» apbeterrebesel h 
8 |Kết quả (results) 'Sample Monitor Tool -3 node -> (stats, density) 
9 |Chấn đoán (diagnosis) Sample Monitor Tool -> history. 





Chúng ta có thể bắt đầu bằng một ví dụ đơn giản và cụ thể. Một nghiên 
cứu về hiệu quả của thuốc trên 25 bệnh nhân cho thấy có 11 bệnh nhân đáp 
tứng (tức thuốc có hiệu quả). Chúng ta muốn biết khoảng tin cậy 95% của tỉ lệ 
hiệu quả là bao nhiêu. Chúng ta sẽ ứng dụng phương pháp Bayes để phân tích. 
Phương pháp Bayes có 3 phấn: thông tin tiến định (prior information), dữ liệu 
thực tế (likelihood), và thông tin hậu định (posterior information). 


Dữ liệu thực tế là số liệu chúng ta có được: ø = 25 và x = 11. Có thể chọn. 
luật phân bố nhị phân (binomial distribution) để mô tả kết quả này. Luật phân 
phối nhị phân cũng có 2 thông số: số cỡ mẫu ø và tỉ lệ p. Nói cách khác: 


x~ Bin(@, n) 
=3 
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Thông tin tiển định: chúng ta không có một “thiên kiến” nào về hiệu quả. 
của thuốc, nên sẽ chọn luật phân bố beta để mô tả thông tin tiền định. Phân 
bố beta có 2 thông số, tạm gọi là ø và b: 

p ~ Beta(a, b) 

Chúng ta cho thông số a = b= 1. 

Để phân tích mô hình trên với WinBUGS, chúng ta sẽ làm theo qui trình 
từng bước sau đây: 

Bước 1. Mô tả mô hình phân tích 


Bước đầu tiên trong WinBUGS là mô tả mô hình bằng cách viết ra lệnh, 
và lưu trữ thành một file. Bước này có thể thực hiện theo qui trình sau đây: 


» _ Khởi động WinBUGS, nhấn chuột vào tab File (trên WinBUGS menu) và 
chọn New: 





Hình 4. Khởi động và tạo ra file mới 


+ Trong bước này, chúng ta phải viết ra mô hình trong window trổng như 
dưới đây: 





#ttÐŒee rếo Molel fœene OgĐMsre Doode Map Te+t Wdow Hep 





MODEL ( 
p + đbeta(a, b) 
*£ ~ dbin(p„ n) 


} 
DATA list (a=1, b=1, x=1i, n=25)| 


Hình 5. Mô tả mô hình bằng các lệnh. 
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Bất cứ một chương trình nào cũng có 2 phẩn: mô hình (MODEL) và dữ 


liệu (DATA). Trong phần mô hình, chúng ta mô tả mô hình phân tích. Cách 
viết mô hình trong WinBUG§ rất giống như cách viết thống kê, nên cũng tiện 
cho việc giảng dạy và bàn luận. Trong phần đữ liệu, chúng ta cung cấp dữ liệu 
để mô hình có thể sử dụng. 


Bước 2. Kiểm tra “ngữ pháp” (check model) 
Ngữ pháp rất quan trọng. Nếu ngữ pháp sai, WinBUGS sẽ không chạy. 


Do đó, trước khi chạy WinBUGS chúng ta lúc nào cũng phải kiểm tra các 
lệnh và hàm cẩn thận. Để kiểm tra, nhấn chuột vào tab Model (trên menu của 
'WinBUG®) và chọn Specification: 








MODEL ( 
p + dbeta(a, b) 

w ~ dbin(P, n) | se. 
) 

DATA list (a=1, 







Hình 6. Chọn specification từ Model 


Sau đó, một đialogue box có tên là Specification Tool sẽ xuất hiện như sau: 





MODBL ( 
p + dbeta(a, b) 

x~ đhÉmfp, B} 

) 

ĐAYA 1ist(a=1, B=1, #211, n225)| 





Hình 7. Specification Tool 
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Nhấn chuột và tô đậm (highlight) MODEL, di đời chuột sang Specification 
Tool và nhấn check model; 





Hình 8. Kiểm tra ngữ pháp của mô hình 


và chú ý đến thông điệp phía dưới (bên trái) của window: 


madEl is sụntactIcallu coirect 





Hình 9. Thông điệp sau khi kiểm tra ngữ pháp của mô hình 


Trong trường hợp này, chúng ta có thông điệp cho biết ngữ pháp của mô. 
hình là đúng (model is syntactically correct). Nếu có vấn để, chúng ta cần phải 
xem xét cẩn thận các lệnh một lần nữa và kiểm tra cho đến khi nào có thông 
điệp này mới có thể tiến đến bước kế tiếp. 


Bước 3. Nhập dữ liệu (load data) 


Trong bước này, chúng ta vẫn dùng Specification Tool để cho WinBUGS 
biết số liệu thực tế. Chúng ta làm theo qui trình: 


«_ Nhấn chuột vào và bôi đậm list (trong phần DATA) như dưới đây: 
mmm-..Ặ.......ăẶằ—ae= 


MODEL( 
P + dhete(x, bị 
KY đhân (P, HỘ 


› 
ĐATA NNBNH(a=1, b1, x=11, nz5) 





Hình 10. Nhập dữ liệu. 
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« — Di chuyển chuột sang Specification Tool, nhấn vào nút load data. Một 
thông điệp sẽ hiện phía dưới (phần trái) cho biết dữ liệu đã được nhập 
(data loaded): 


data loaded 


Hình 11. Thông điệp sau khi nhập dữ liệu 
Bước 4. Chạy thử mô hình (compile) 


Trong bước này, chúng ta báo cho WinBUGS biết có thể sử dụng mô hình 
cho đữ liệu mới nhập. Trong Specification Tool, chọn compile. 






MODEL, ( 
p ~ dbeta(a, b} 
x~ đhin(p, n) 


h 
DAFA [EEEJ(A=l, bi, x=ll, n*25) 


Hình 12. Chạy thử (compile) 


Một thông điệp sẽ hiện phía dưới (phần trái) cho biết dữ liệu đã được thử 
(model compiled): 


model compil=ri 





Hình 13. Thông điệp sau khi chạy thử 
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Bước 5. Cho giá trị khởi đầu (generating initials - gen inits) 
Vì yêu cầu của phương pháp mô phỏng Monte Carlo, nên các mô hình 
Bayes đều cẩn có một giá trị khởi đầu, gọi là initial values. Cách tốt nhất là để 


cho WinBUGS tự động cho các giá trị này, bằng cách dùng Specification Tool, 
và chọn gen inits: 





MODEL ( 
p + dbeta(a, b) 
x~ dbin(p, n} 


ŸÈÄ Specificatien Tool 


DATA list(a=1, b=l, x=ll, n=25)| 








Hình 14. Dữ liệu khởi đầu 
Sau khi chọn gen inits, một thông điệp phía dưới (bên trái) sẽ xuất hiện: 
initial values generated, model initialized 
Bước 6. Mô tả thông số (parameter) 
Một mô hình có ít nhất là một thông số (parameter). Chúng ta cần phải 


cho WinBUGS biết thông số cẩn ước tính là gì. Trong trường hợp trên, thông, 
số chúng ta cần biết là p - tỉ lệ bệnh nhân đáp ứng thuốc. 


Để thực hiện bước này, nhấn chuột vào tab Inference trên menu của 
'WinBUGS và chọn Sample: 






p ~ đbeta(a, b) 
x~ đbin(p„ n) 





ì) 
DATA list(a“1, b“1l, x“ll, n=25) 





Hình 15. Chọn Sample từ Inference. 
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Một dialogue mới có tên là Sample Monitor Tool sẽ xuất hiện như hình. 
dưới đây: 





HGPEL, ( 
+ đbeta(a, bị 
x~ đbín(p, n) 





) 
ĐATA liet(anl, bơi, xel1, n”25) 


Hình 16. Sample Monitor Tool 


Trong Sample Monitor Tool chúng ta có thể cho WinBUGS biết những 
thông số chúng ta cần phân tích. Như để cập trên, chúng ta muốn biết khoảng 
tin cậy 95% của p (là tên thông số trong MODEL), nên chọn bách phân vị 
(percentiles) 2.5, trung vị (median) là 97.5. 


Đưa chuột vào box có tên nođe trong Sample Monitor Tool và gõ p: 


#3 Sample Monitor Tool 























Hình 17. Chọn thông số cho phân tích 


Sau đó, nút set sẽ được kích hoạt (activited). Nhấn chuột vào set cho đến 
khi tất cả các thông số đã được liệt kê. Cũng có thể thấy các thông số (nếu cần) 
bằng cách nhấn chuột vào nút nođe. 


Bước 7. Mô phỏng (generating simulated values) 


Sau khi mô hình đã được mô tả, thông số đã được chọn, bước kế tiếp là 
mô phỏng. Để thực hiện bước này, nhấn chuột vào tab Model trên menu của. 
'WinBUGS và chọn Update: 
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Hình 18. Chọn Model và Update. 


Sau đó một dialogue box có tên là Update Tool sẽ xuất hiện: 


11, 


n=25) 





3⁄3 5peclfIcation Toel 














Hình 19. Update Tool 
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Trong Update Tool có phần update, nơi chúng ta cẩn cho WinBUGS biết 
số lần mô phỏng là bao nhiêu. Chẳng hạn như tôi cho số lần mô phỏng là 5000: 


Update Taol 





Hình 20. Update 


Nhấn vào nút update, WinBUGS sẽ chạy (tùy theo mô hình) vài giây hay 
vài phút. Sau khi bước này xong, chúng ta đã có kết quả, và bước kế tiếp là xem. 
xét kết quả. 


Bước 8. Xem xét kết quả thông tin hậu định (posterior information) 


"Trong bước này, chúng ta sẽ xem kết quả phân tích. Để thực hiện bước này, 
chúng ta quay lại Sample Monitor Tool và cung cấp 1001 vào field beg (có nghĩa 
là yêu cầu WinBUGS bỏ 1000 mô phỏng đầu vốn chỉ để lấy các giá trị 
nhắc lại rằng nhớ chọn thông số (trường hợp này là p) từ ñeld node: 
=1: 
NGPEL ( 
§# 


đpeta(a, bì 
x« đbÌn(p, m) 










) 
PATA list(a“1, b“l, x=13, n*25) 


lưu [ƒØã— ~ [BH wí — 





(1 E21 | sả] sxIlÐ 


xe | m | semm| aan| mạ lễ 





Hình 21. Cung cấp tên thông số cho phân tích 
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Sau khi chọn p, các nút trong Sample Monitor Tool sẽ kích hoạt, và chúng. 
ta có thể xem qua kết quả. Nhấn chuột vào stats (để có các thông số khoảng, 
tin cậy 95%) và density để có biểu đồ phân bố của p. Kết quả là: 





cŠ' Esampls ø[ a xưng tnođe? 





MODEL ( 
p ~ dbeta (SE 


w ~ dbin (pÉo 




















*⁄25ampbe Monltor 1eei 
3 3Updste Teol 


ww#@we[SHD  ứeh[M 
qedwe | he [T— iewen[TBB” 


lụạ [BRĐ— „w [0 wà [T 
du. | [CHÍ men | Hang | day 
cœda | game] bợếsg| sáocw||Z Í ai Í siging 

















Hình 22. Kết quả phân tích. 


Trong phần stats, chúng ta thấy tỉ lệ trung bình là 44.2%, với khoảng tin 
cậy 95% dao động trong khoảng 26.8% đến 62.6%. Biểu đổ phân bổ thể hiện 


mô phỏng 5000 lần cũng phù hợp với các kết quả trên. 


Bước 9. Chẩn đoán (diagnosis) 

Trước khi chấp nhận kết quả trên, chúng ta cần phải kiểm tra phần kĩ 
thuật tính toán có đạt yêu cầu hay chưa. Đạt yêu cầu khi các bước tính toán 
theo chu kì đã "converged” (tức ổn định). Để kiểm tra kĩ thuật, chúng ta sử 
dụng Sample Monitor Tool và nhấn chuột vào nút history. Kết quả là: 
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Hình 23. Chẩn đoán 


Kết quả trình bày trong biểu đổ có tên Time Series cho thấy mô hình và 
tính toán ổn định. 


19.3 Phân tích 2 nhóm 


Số liệu về tử vong trong 2 nhóm phẫu thuật như sau: Trong số 18 bệnh 
nhân được phẫu thuật bằng phương pháp 1, có 3 người tử vong; trong nhóm 
23 người được phẫu thuật bằng phương pháp mới có 2 người tử vong. 





NHÓM. | SỐ BỆNH NHÂN (n) |_ SỐTỬVONG (x) 
Nhóm 1 18 3 
Nhóm 2 23 2 























Câu hỏi nghiên cứu là có khác biệt gì giữa hai nhóm. Nếu gọi P, và P, là 
tỉ lệ tử vong của nhóm 1 và 2, câu hỏi nghiên cứu có thể đặt ra theo ba cách 
diễn đạt: 


«_ Gọi D=P,~ P„, câu hỏi là D > 0? 
«_ Gọi RR= P,/ P,(tỉ số nguy cơ), câu hỏi cũng có thể là RR > 1? 


» - Nếu đặt OR= P/(1-P,)/ P,/(1-P,) (tỉ số odds), câu hỏi cũng có thể là 
OR >1? 
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Chúng ta có thể phân tích 3 câu hỏi trên bằng WinBUGS như sau: 
MODEL { 


# prior information 
p1 ~ đbeta(0.5, 0.5) 
P2 ~ đbeta(0.5, 0.5) 


# data or 1ikelihood 
x1 ~ dbin(p1, n1) 
x2 ~ dbin(p2, n2) 


+ 


effect size 

dif£f = pl-p2 

xr = p1/p2 

or = (pl1/(1-pl)) / (p2/(1-p2)) 
1ogOR = log (or) 

PPos = step(OR - 1) 

} 


DATA 1ist(x1=3, n1=18, x2=2, n2=23) 


Chúng ta vẫn tiến hành những bước kiểm tra “ngữ pháp” (check model), 
cung cấp dữ liệu (load data), chạy thử mô hình (compile), cho giá trị khởi 
đầu (generating initials - gen inits), và tính toán thông tin hậu định (posterior 
information). Vì mô hình này có nhiều thông số, nên trong fñeld node của 
Sample Monitor Tool chúng ta phải cung cấp những thông số như p], p2, or, 
rr, và ppos (xác suất OR > 1). Chú ý dấu "*” trong node có nghĩa là tất cả các 
thông số: 





Hình 24. Sample Monitor Tool: mô tả thông số cho phân tích 
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Hình 25. Kết quả phân tích 2 tỉ lệ 
“Trên đây là chỉ dẫn đơn giản từng bước một để sử dụng WinBUGS cho 
các phân tích theo mô hình Bayes. Hi vọng rằng các chỉ dẫn trên đây đã và sẽ 
giúp cho các bạn thực hiện được những phân tích đơn giản và trung bình. 


Để sử dụng WinBUGS một cách hữu hiệu, người sử dụng cần phải làm. 
quen với “ngữ pháp” của chương trình máy tính. Bài này không có mục đích 
mô tả các lệnh đó. Bạn đọc có thể truy cập trang web www.mrc-bsu.cam.ac.uk 
để tải về các tài liệu chỉ dẫn và cẩm nang để tham khảo. 


Phương pháp phân tích dữ liệu theo trường phái Bayes được đánh giá 
là phương pháp chính trong thế kỉ 21. Vì phương pháp tần số (ÍrequentisL 
methods) có nhiều khiếm khuyết, và càng ngày càng có nhiều người nhận ra 
sự hữu ích của phương pháp Bayes, nên hiện nay WinBUGS càng ngày càng 
được nhắc đến thường xuyên. Ở Việt Nam, phương pháp Bayes chưa được 
quan tâm vì thiếu tài liệu và các trường đại học cũng chưa có những chương 
trình giảng dạy có hệ thống. Chương này mang tính giới thiệu và hi vọng sẽ 
góp một phần nhỏ để giới thiệu phương pháp Bayes đến các bạn quan tâm. 
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__/AF, Ạ à. 
Thiết kế thí nghiệm 
(Design of experiments) 








phòng thí nghiệm, mà còn bao gồm cả những công trình khảo sát rộng 

lớn hơn như thử nghiệm lâm sàng đối chứng ngẫu nhiên (randomized 
clinical trial), các công trình nghiên cứu tiêu biểu một thời điểm (còn gọi 
là nghiên cứu cắt ngang hay cross-sectional study), thăm đò ý kiến, điểu tra 
về dân số, v.v... Ngay cả một chính sách kinh tế cũng có thể xem là một thí 
nghiệm - thí nghiệm xã hội. 

Một thí nghiệm đạt tiêu chuẩn khoa học phải là một thí nghiệm được 
thiết kế có hệ thống và khách quan. Chẳng hạn, như để biết tỉ lệ mắc bệnh 
đái tháo đường trong một quấn thể, chúng ta không cần phải khám nghiệm. 
tất cả cá nhân trong quần thể đó, mà chỉ chọn ngẩu nhiên một số cá nhân đại 
diện. Tuy nhiên, nếu số lượng cá nhân đại diện (còn gọi là mắu) quá thấp thì 
công trình nghiên cứu sẽ không cho kết quả chính xác; ngược lại nếu số lượng 
mẫu quá lớn, chúng ta sẽ phung phí tin bạc và cơ sở vật chất một cách không, 
cần thiết. Do đó, mục tiêu của thiết kế nghiên cứu là (¡) để phát hiện một ảnh 
hưởng hay tác dụng của một can thiệp, và (ii) sử dụng cơ sở vật chất và tài lực 
một cách tối ưu. 

Qua các chương trước, chúng ta đã làm quen với một số mô hình phân 
tích số liệu. Kết quả của các phân tích này chỉ có giá trị khoa học khi số liệu 
được thu thập đúng phương pháp, và khi công trình nghiên cứu được thiết 
kế một cách tối ưu. Các mô hình thống kê không thể cung cấp cho chúng ta 
thông tin về chất lượng của nghiên cứu, vì đây là một khía cạnh cấn sự thẩm 
định cẩn thận của nhà nghiên cứu. Do đó, thiết kế nghiên cứu, đóng một vai 
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@®- từ “thí nghiệm” ở đây không chỉ bao gồm các hoạt động trong 


trò rất quan trọng cho việc thành bại của một công trình khoa học. Có thể nói 
rằng một nghiên cứu nếu được thiết kế cẩn thận và đúng phương pháp thì mức 
độ thành công đã đạt được 50%. Chương này và chương sau sẽ bàn qua một 
số khái niệm căn bản về thiết kế nghiên cứu và một số mô hình nghiên cứu 
thông dụng. 


20.1 Thuật ngữ 

Để thuận tiện cho việc theo dõi và quán triệt các khải niệm nghiên cứu, 
có lẽ chúng ta phải làm quen và phân biệt được một số thuật ngữ quan trọng 
trong khi thiết kế một nghiên cứu. 

Đơn vị nghiên cứu (experimental unit): Tùy theo lĩnh vực nghiên cứu, 
đơn vị nghiên cứu có thể là đối tượng (như bệnh nhân hay tình nguyện viên), 
mẫu ruộng, sản phẩm, qui trình sản xuất, v.v... Đơn vị nghiên cứu là đối tượng 
sử dụng trực tiếp cho việc đo lường. Chẳng hạn như, trong nghiên cứu về vị 
đắng của cà phê, nhà nghiên cứu có thể cho một nhóm người tiêu thụ nếm thử 
nhiều loại cà phê khác nhau, và các loại cà phê này chính là đơn vị nghiên cứu. 
Trong các nghiên cứu lâm sàng, nhà nghiên cứu có thể chọn hai nhóm bệnh 
nhân để so sánh hiệu quả của hai thuật điểu trị, và trong trường hợp này, mỗi 
bệnh nhân là một đơn vị nghiên cứu. 


Yếu tố can thiệp (factors): là những can thiệp (intervention) áp dụng 
trên các đối tượng nghiên cứu. Yếu tố can thiệp còn có khi được gọi là biến độc 
lập ndependent variable) hay biến giải thích (explanatory variable). Trong ví 
dụ nghiên cứu lâm sàng vừa để cập trên, hai thuật điểu trị là yếu tố can thiệp. 
Hay trong nghiên cứu về hiệu quả của hai loại giống lúa, thì giống lúa được 
xem là yếu tố can thiệp. 

Mức độ can thiệp (treatment levels): là những “giá trị” của một yếu tổ 
can thiệp. Chẳng hạn như nếu hai thuật điểu trị là hai loại thuốc, và mỗi loại 
thuốc có 3 liều lượng, thì liều lượng là mức độ can thiệp. Hay trong nghiên 
cứu cảm quan, nhà nghiên cứu có thể cho người tiêu thụ nếm thử vị ngọt của 
một loại bia, nhưng bia được sản xuất với ba công thức khác nhau, thì công 
thức chính là mức độ can thiệp. 

Nhóm (block): Trong nhiễu nghiên cứu, một nhóm yếu tố can thiệp có. 
thể sắp đặt thành từng nhóm (hay khối). Chẳng hạn như trong một nghiên 
cứu cảm quan về vị đắng của 3 loại cà phê (A, B và C), nhà nghiên cứu có thể 
chọn một số đối tượng nghiên cứu (người tiêu thụ) và chia đối tượng thành 
ba nhóm l1, 2 và 3 như sau: 

pe/Beulunhoplosrg 





NHÓM1 
A,B,C 


NHÓM? 
^.B,C 


NHÓM3 
A,B,C 





Can thiệp 




















“Trong phương án này, cá nhân trong mỗi nhóm đều thử nghiệm tất cả 3 
loại cà phê, và thứ tự A, B, C không thay đổi giữa các nhóm. Phương án này 
còn có tên là balance complete block design (phương án cân đối nhóm). 


Hoặc nhà nghiên cứu có thể chọn 2 loại cà phê cho ba nhóm:_ 


NHÓM1 NHÓM2 NHÓM3 
Can thiệp. ^B B,C AC 











Trong phương án này, mỗi nhóm chỉ thử nghiệm 2 loại cà phê, nhưng 
thứ tự loại cà phê được thay đổi theo từng nhóm. Phương án này còn có tên 
là balance incomplete block design (phương án cần đối nhóm không đẩy đủ). 


Phương án cân đối nhóm còn được sử dụng khá phổ biến trong các nghiên 
cứu lâm sàng. Chẳng hạn như nghiên cứu thử nghiệm hiệu quả của hai loại 
thuốc điểu trị bệnh loãng xương, nhà nghiên cứu có thể chọn 100 bệnh nhân, 
và chia thành 5 nhóm (mỗi nhóm có 20 người). Trong mỗi nhóm, 10 người 
được điểu trị bằng thuốc A và 10 người được điểu trị bằng thuốc B. Phân 
nhóm phải được tiến hành hoàn toàn ngẫu nhiên để đảm bảo tính khách quan 
của nghiên cứu. 

“Tiêu chí (response variable): là biến số chịu ảnh hưởng của yếu tố can 
thiệp. Chẳng hạn như trong nghiên cứu cảm quan về vị đắng của cà phê thì 
vị đắng là tiêu chí nghiên cứu; hay trong nghiên cứu về hiệu quả của hai 
thuật điểu trị bệnh loãng xương thì mật độ xương (bone mineral density) là 
tiêu chí. : 


Ví dụ 1: Một thí nghiệm cảm quan đơn giản. Để biết người tiêu thụ 
đánh giá độ ngọt của một loại nước ngọt thế nào, các nhà nghiên cứu sản 
xuất ra hai loại nước ngọt với công thức A và B. Trong thí nghiệm, người 
tiêu thụ được cho thử nước ngọt và cho điểm độ ngọt (từ 1 = “không ngọt” 
đến 10 = “quá ngọt”) như sau. Vấn để đặt ra là tìm một phương án nghiên 
cứu sao cho lượng thông tin thu thập được tối đa và đảm bảo tiêu chuẩn 
khoa học. 





1 2zJ3|+|s|s|7|%|» 10 
(không ngọt) (quá ngọt) 
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Phương án 1: các nhà nghiên cứu ngẫu nhiên mời nở (m có thể là 15) khách 
hàng và cho mỗi khách hàng uống thử cả hai loại nước ngọt và phân tích khác 
biệt về độ ngọt giữa hai sản phẩm từ mỗi người. 

Phương án 2: ngẫu nhiên chọn 2n (hay 30 người), rồi ngẫu nhiên chia 
thành 2 nhóm. Nhóm 1 uống nước ngọt công thức A, và nhóm 2 uống nước 
ngọt công thức B như sau: 


®@®€®€®®€® 
ì 8a \ 
® ® ® ® ® ® 
mỳ đa @đÀ 0 
®®®®®® 
„ œ<. 8 8® G8 
®®® ® ® ® 
h đồ SA 
®®€®@®@®® 
Phương án 3: ngẫu nhiên chọn ø (hay 15 khách hàng), mỗi khách hàng 
được cho uống hai loại nước ngọt, nhưng thứ tự AB và BA được phân chia 


một cách ngẫu nhiên như sau. Phương án này có 2 yếu tố can thiệp (A và B), 
cho mỗi nhóm (block). Nói cách khác, mỗi khách hàng là một “nhóm”. 


























Mỗi phương án trên đều có lợi thế và bất tiện. Thứ nhất, về mặt cơ sở vật 
chất và chỉ phí, phương án 2 đòi hỏi số lượng đối tượng nghiên cứu cao gấp. 
hai lần phương án 1, đất tiến hơn và tốn nhiều thời gian hơn. 


Thứ hai, về mặt khoa học, phương án 2 đòi hỏi nhà nghiên cứu phải so 
sánh hai nhóm một cách độc lập, và độ nhiễu thông tin (noise) của phương 
án này chắc chắn phải cao hơn độ nhiễu của phương án 1 và 3. “Độ nhiễu” 





'lpe/feulun heploerg 


ở đây có thể đo bằng phương sai (variance). Để hiểu khái niệm quan trọng 
này, chúng ta cẩn phải điểm qua một khái niệm thống kê học căn bản. Gọi 
tiêu chí đo độ ngọt của hai nhóm là x, và x,; Gọi phương sai của độ ngọt 
của hai nhóm là s; và s;. Bởi vì theo phương án 2, hai nhóm độc lập nhau 
(tức là khách hàng thử sản phẩm A không phải là khách hàng thử sản phẩm 
B) cho nên phương sai của độ khác biệt giữa hai sản phẩm x=x, (kí hiệu 
sỉ.) là: 


lãng 


=# + IH 





Nếu phương sai của hai nhóm bằng nhau sở = s} = s°, thì phương sai của 
độ khác biệt đơn giản là: | 
= 


xa 


Nhưng với phương án 1, bởi vì mỗi khách hàng thử cả hai sản phẩm, do 
đó, x, và x, không độc lập với nhau, và phương sai của đô khác biệt là: 


ä„... 
SỐ.„ =S +3; ~2coV(Xị,X;) I2] 





Trong đó, cov(x,, x,) có nghĩa là hiệp biến (covariance), tức phản ánh độ 
tương quan giữa x, và x,. Bởi vì độ tương quan giữa x, và x, chắc chắn phải là 
một số dương (lớn hơn 0); Do đó, phương sai trong công thức [2] luôn luôn. 
nhỏ hơn phương sai trong công thức [1]. 

Nói cách khác, độ nhiễu thông tin của phương án 1 và 3 lúc nào cũng 
nhỏ hơn độ nhiễu của phương án 2. Do đó, phương án 1 và 3 có ưu thế hơn 
phương án 2. _ 

Thứ ba, phương án 1 và 3 giống nhau ở điểm mỗi khách hàng uống thử 
cả hai loại sản phẩm, nhưng phương án 3 thì thứ tự sản phẩm được thay đổi 
ngẫu nhiên (chứ không cố định như phương án 1). Sự thay đổi ngẫu nhiên 
như từ A sang B (và B sang A) cũng có thể xem là một cách “blocking” (phản 
nhóm), do đó, nhà nghiên cứu có thể kiểm soát thêm một nguồn dao động 
quan trọng. 

Vì vậy, trong ba phương án này, có thể nói phương án 3 là tối ứu nhất. 
Nhưng tất nhiên vấn để còn tùy thuộc vào đặc tính của sản phẩm và tình hình 
thực tế. Có nhiều sản phẩm mà phương án 1 và 3 không thể áp dụng vì lí do 
an toàn hay hiệu ứng “hawthorne” (sẽ bàn trong phần dưới đây). 
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20.2 Ba nguyên tắc quan trọng của một nghiên cứu 


Một nghiên cứu khoa học phải tuân thủ theo ba nguyên tắc: ngẫu nhiên 
hóa (randomization), lặp lại nhiều lần (replication), và phân nhóm (blocking). 

“Tại sao phải ngẫu nhiên hóa? Trong nhiếu nghiên cứu, chúng ta phải lấy 
mẫu (sample) từ một quần thể (population). Một trong những yêu cầu quan 
trọng của lấy mẫu là mẫu phải mang tính đại điện cho quần thể. Chẳng hạn như 
trong quần thể 1 triệu người có 50% nam và 20% người có trình độ văn hóa cao 
hơn lớp 12, nếu chúng ta chọn 100 người từ quần thể này, mẫu được chọn được 
xem là đại diện khi có khoảng 50 nam và 20 người có học vấn trên lớp 12. Chọn 
mẫu ngẫu nhiên là phương án tốt nhất để đảm bảo tính đại diện này. 

Đối với một nhóm đối tượng, ngẫu nhiên hóa còn có khả năng cân đối các 
đặc điểm giữa các nhóm can thiệp. Giả dụ chúng ta đã mời được một nhóm 
gồm 50 tình nguyện viên sẵn sàng tham gia vào một công trình nghiên cứu 
cảm quan để thử vị chua của 2 loại nước giải khát (nói cách khác, chúng ta có 2 
nhóm, và mỗi nhóm có 25 người). Di nhiên 50 người này có nhiều đặc tính cá 
nhân khác nhau, chẳng hạn như độ tuổi, giới tính, trình độ văn hóa, sở thích 
cá nhân, v.v... Tất cả những đặc tính này có thể có ảnh hưởng đến cảm nhận về 
sản phẩm. Do đó, để "cân đối” các đặc tính này cho hai nhóm, cách duy nhất 
và khách quan nhất là phân chia họ thành hai nhóm một cách ngẫu nhiên. 


Vì phần lớn các mô hình phân tích thống kẻ dựa vào giả định rằng đối 
tượng được chọn ngẫu nhiên từ một quần thể, cho nên ngẫu nhiên hóa còn 
đảm bảo tính hợp lí của kết quả phân tích. 


Một trong những “tiêu chuẩn vàng” của khoa học là kết quả nghiên cứu. 
phải có tính có thể lặp lại (repeatability) hay tái xác nhận. Nói một cách khác, 
nếu có một nghiên cứu đã được công bố bởi một nhà khoa học nào đó; Nếu 
một nhà nghiên cứu khác lặp lại nghiên cứu đó bằng những phương pháp và 
với điều kiện đã được mô tả, phải đạt được những kết quả tương tự. Đó là một 
tiêu chuẩn cực kì quan trọng để phân biệt giữa khoa học và ngụy khoa học 
(pseudoscience). Một quan sát được lặp lại nhiều lấn thì quan sát đó có độ tin 
cậy cao. Và độ tin cậy cao cho phép kết luận nghiên cứu có giá trị cao. 


Ngẫu nhiên hóa có thể làm cân đối các đặc điểm của đối tượng nghiên 
cứu cho các yếu tố can thiệp, nhưng với điểu kiện số lượng đối tượng phải 
tương đối lớn. Khi số lượng đối tượng nghiên cứu nhỏ, thì ngẫu nhiên hóa 
không có hiệu quả cao. Chẳng hạn như với 6 đối tượng chia thành 2 nhóm, 
ngẫu nhiên hóa có thể cho ra kết quả 4 đối tượng thuộc nhóm A và 2 đối tượng 
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thuộc nhóm B. Do đó, một cách khác để đảm bảo tính cân đối là phân nhóm. 
Trong trường hợp trên, chúng ta có thể chia thành 3 nhóm (mỗi nhóm 2 đối 
tượng), và ngẫu nhiên hóa được tiến hành cho từng nhóm. 

Phân nhóm không ảnh hưởng đến khâu phân tích số liệu, bởi vì chúng ta 
không có mục đích tìm hiểu tiêu chí cho từng nhóm. Phân nhóm chỉ có ảnh 
hưởng và giá trị trong khâu thiết kế nghiên cứu. 


20.3 Ảnh hưởng giả dược (placebo), Hawthorne, và kín đáo. 

Trong các thí nghiệm liên quan đến con người và bệnh nhân, hai yếu tố 
khác có thể ảnh hưởng đến kết quả nghiên cứu, đó là giả được và sự kín đáo 
(blinding). Để hiểu rõ hai ảnh hưởng này, chúng ta có thể xem xét một ví 
dụ sau đây. Để biết thuốc alendronate có hiệu quả ngăn ngừa gãy xương hay 
không, các nhà nghiên cứu chia 100 bệnh nhân thành hai nhóm can thiệp: 
nhóm I có 50 bệnh nhân được cho uống thuốc alendronate thật, và nhóm 2 
cũng gồm 50 bệnh nhân được cho uống thuốc alendronate giả (còn gọi là giả 
dược hay placebo), nhưng hai loại thuốc hoàn toàn giống nhau, bệnh nhân và 
bác sĩ không thể phân biệt được thuốc nào là giả và thuốc nào là thật! 

“Thí nghiệm như vừa mô tả đặt ra hai vấn để nan giải. Kinh nghiệm từ 
nhiều nghiên cứu lâm sàng y khoa cho thấy một xu hướng chung là bệnh nhân 
thường tự cho rằng sức khỏe họ có cải tiến hay tốt hơn, chỉ vì họ được điểu trị 
(cho dù “điểu trị” là giả được)! Yếu tố tâm lí này thường được gọi là “placebo 
effect” hay hiệu ứng giả được. Hiệu ứng giả dược có thể giải thích khoảng 35%. 
kết quả của các nghiên cứu lâm sàng, đặc biết là đối với các thuốc giảm đau, 
suyễn, trầm cảm (depression), bệnh đường ruột, và cao huyết áp. Chính vì 
lí do này, việc đánh giá hiệu quả của một thuật điểu trị thường phải có một 
nhóm đối chứng (hay placebo) và độ khác biệt giữa hai nhóm can thiệp có thể 
xác định là hệ quả của thuốc thật hay do giả dược. 

'Yếu tố thứ hai là hiệu ứng Hawthorne. Con người nói chung có khả năng 
thích ứng rất cao, và khả năng này gây ra không ít khó khăn cho nghiên cứu 
khoa học. Chẳng hạn như, khi chúng ta cho một nhóm người tiêu thụ nếm vị 
đẳng của cà phê nhiều lấn, thì lần đấu người tiêu thụ vì chưa quen với vị đắng 
nên họ có thể cảm thấy rất đắng và cho điểm cao, nhưng đến lần 2 hay lần 3 
thì vì đã quen với vị đắng nên họ cho điểm thấp xuống. Hay trong nghiền cứu. 
lâm sàng, nếu bệnh nhân biết mình đang được theo dõi, họ sẽ cố gắng làm hài 
lòng bác sĩ và sự khách quan của bệnh nhân có thể bị ảnh hưởng. Thuật ngữ 
cho hiện tượng này là “Hawthorne effect. 
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Yếu tố thứ ba là sự chủ quan của nhà nghiên cứu. Nếu bác sĩ biết bệnh 
nhân sử dụng thuốc thật hay giả được, cách đánh giá của họ có thể ảnh hưởng 
đến kết quả nghiên cứu. Vì thế, trong các nghiên cứu lâm sàng nghiêm chỉnh, 
nhà nghiên cứu không được biết bệnh nhân đang được điểu trị bằng thuốc 
hay giả được, và phương cách này có tên là "blinding” (làm mù), tạm dịch là 
“kín đáo” Việc giữ kín này phải được duy trì ở bệnh nhân và bác sĩ. Nói cách 
khác, cả bệnh nhân và bác sĩ đều không biết bệnh nhân thuộc vào nhóm can 
thiệp hay nhóm giả được. 

"Tuy nhiên, không phải bất cứ nghiên cứu lâm sàng nào cũng có thể 
duy trì sự kín đáo như thế. Chẳng hạn như nghiên cứu về hiệu quả của một 
thuật giải phẫu, bệnh nhân chắc chắn biết họ được giải phẫu thật hay giả 
(vì không có cái gọi là “giải phẫu giả”). Ngoài ra, vì lí do y đức, không phải 
nghiên cứu nào cũng có thể sử dụng giả dược. Nếu chúng ta biết rằng căn 
bệnh có nguy hiểm đến tính mạng của bệnh nhân và thuốc có hiệu quả, thì 
không có lí do gì nhà nghiên cứu cho bệnh nhân dùng giả được. Trong các 
trường hợp này, nhà nghiên cứu phải suy nghĩ kĩ và phát triển một phương 
án nghiên cứu sao cho vừa không vi phạm y đức mà vừa đáp ứng các tiêu 
chuẩn khoa học. 


20.4 Vài ví dụ về nguyên tắc của thiết kế nghiên cứu 


Để quán triệt rõ các nguyên tắc trên, chúng ta thử xem qua một công 
trình nghiên cứu sau đây về hiệu quả của sinh tố C cho điểu trị cảm cúm. 
€ó giả thiết cho rằng sinh tố C có thể ngăn ngừa cảm cúm. Vấn để đặt ra là 
chúng ta nên thiết kế nghiên cứu để thử nghiệm giả thiết này như thế nào để 
đạt tiêu chuẩn khoa học. Giả dụ, chúng ta có 50 người tình nguyện tham gia 
vào công trình nghiên cứu, chúng ta có thể chọn một trong những phương 
án sau đây: 

Phương án 1. Cho 50 người uống sinh tố C trong vòng 6 tháng, và trong, 
thời gian đó ghi nhận số lấn cảm cúm. Kết quả cho thấy sau 6 tháng điểu trị, 
tấn số cảm cúm trung bình là 1.4 lấn / đối tượng. 

Phương án 2. Chia 50 người thành 2 nhóm nam và nữ. Cả hai nhóm được 
điều trị bằng sinh tố C trong vòng 6 tháng. Kết quả cho thấy sau 6 tháng điểu 
trị, tấn số cảm cúm trung bình trong nhóm nam là 1.4 lấn / đối tượng, còn 
nhóm nữ tấn số này là 1.9 lần / đối tượng. 

Phương án 3. Chia 50 người thành 2 nhóm một cách ngẫu nhiên. Nhóm. 
1 gồm 25 người được điểu trị bằng sinh tố C trong vòng 6 tháng. Nhóm 2 
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không được điểu trị, nhưng vẫn được theo đối 6 tháng. Kết quả cho thấy sau 6 
tháng điểu trị, tần số cảm cúm trung bình trong nhóm I là 1.4 lần / đối tượng, 
còn nhóm đối chứng là 1.9 lần/đối tượng. 


Phương án 4. Nhờ một công tí được sản xuất 50 hộp thuốc sinh tố C, và 
50 hộp giả dược sinh tố C. Chia 50 người thành 2 nhóm một cách ngẫu nhiên: 
nhóm 1 gốm 25 người được điều trị bằng sinh tố C; nhóm 2 nhận giả dược. Cả 
hai nhóm được theo dõi 6 tháng. Kết quả cho thấy sau 6 tháng điểu trị, tấn số 
cảm cúm. trung bình trong nhóm 1 là 1.4 lấn/đối tượng, còn nhóm đối chứng. 











Phương án 5. Cũng giống như phương án 4, nhưng chúng ta phân chia 
(blocking) hai nhóm can thiệp theo giới tính. Giới tính có thể có ảnh hưởng 
đến nguy cơ cảm cúm (nam thường bất cẩn hơn nữ), cho nên chúng ta chia 50 
người thành hai nhóm nam và nữ. Mỗi nhóm được ngẫu nhiên hóa thành hai 
nhóm can thiệp để đảm bảo cân đối nam và nữ cho từng nhóm. Cả hai nhóm 
được theo đối 6 tháng. Sau 6 tháng điểu trị, tấn số cảm cúm trung bình cho. 
từng nhóm can thiệp và giới tính có thể tóm lược như sau: 
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Dựa vào các nguyên lí thiết kế trên, có gì sai lắm trong 4 phương án nghiên 
cứu trên? Sau đây là vài nhận xét chính: 

« _ Sai lầm của phương án 1 là không có nhóm đối chứng, cho nên kết quả 
không thể so sánh và cũng rất khó diễn dịch. Tần số trung bình 1.4 
lần/đối tượng chẳng có ý nghĩa gì. 

« _ Phương án 2 có nhóm đối chứng, nhưng vì yếu tố can thiệp được phân 
chia theo giới tính, cho nên độ khác biệt giữa tần số trung bình 1.4 và 
1.9 lần/đối tượng không thể nói là do ảnh hưởng của giới tính hay do. 
ảnh hưởng của sinh tố C. 

« _ Phương án 3 có nhóm đối chứng, nhưng sai lầm là không có blinding, 
vì đối tượng nghiên cứu biết họ nhận hay không nhận thuốc. Nhóm 
được điểu trị có thể sẽ chủ quan không rửa tay (vì nghĩ rằng sinh tố C 
đã bảo vệ họ), và điểu này có thể ảnh hưởng đến kết quả nghiên cứu. 
Vì thế, kết quả này cũng khó diễn dịch. 

+ _ Phương án 4 không có sai lắm nào. Phương án này có nhóm đối chứng 
và đối tượng nghiên cứu được phân chia một cách ngẫu nhiên và kín 
đáo, đảm bảo việc so sánh có giá trị khoa học. 

« _ Phương án 5 cũng không có sai lắm nào và tốt hơn phương án 4, vì ảnh 
hưởng của giới tính được kiểm soát qua cách phân chia ngẫu nhiên 


20.5 Thí nghiệm với một yếu tế (single-factor designs) 


Như tên gọi ám chỉ, các thí nghiệm một yếu tố chỉ có một yếu tố can. 
thiệp. Phần lớn, các thử nghiệm lâm sàng đối chứng ngẫu nhiên (chia bệnh 
một cách ngẫu nhiên thành hai nhóm can thiệp) là một dạng của thiết kế này. 
Tuy nhiên, có nhiều phương án trong thiết kế này có thể ứng dụng cách phân 
nhóm (blocking). Ví dụ sau đây sẽ cho chúng ta một ý tưởng về hiệu quả của 
phân nhóm trong các thí nghiệm một yếu tố. 

Ví dụ 2: Một nhóm nghiên cứu nông nghiệp muốn nghiên cứu ảnh hưởng 
của phân bón đến sự tăng trưởng của lúa. Ba liều lượng urê được sử dụng 
(thấp, trung bình, và cao - sẽ viết tắt bằng tiếng Anh là low, medium và high). 
Nhóm nghiên cứu chọn 6 địa điểm (A, B, C, D, E, và F), và mỗi địa điểm có 
3 mảnh đất để thí nghiệm (1, 2, 3). Sau đây là vài phương án thí nghiệm mà 
nhóm nghiên cứu có thể chọn: 

—— 418. 
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Phương án 1 - CRD (completely randomized đesign): Ở đây, nhóm 
nghiên cứu có 6 x 3 = 18 nơi để thí nghiệm, và 3 yếu tố can thiệp để chia nhóm. 
Nói cách khác, mỗi yếu tố can thiệp sẽ được áp dụng tại 3 nơi. Với phương án 
này CRD 3 yếu tố can thiệp được ngẫu nhiên hóa cho tất cả 18 nơi, và kết quả 
có thể là: 




















ĐỊA ĐIỂM. MÀNHĐẤT1 ( MẢNHĐẤT2 | MẢNHĐẤT3 
A Low Low 
B Medium KY Medum | High 
c High | Medum | Low 
D Medum_ | Low |_ High 
E Medum_ | Low |_ Medum 














= 


Low High. High 


Trong phương án này, vì cách phân chia ngẫu nhiên, cho nền mỗi địa 
điểm có khi “nhận” hai liểu lượng urê “low” và một loại urê “high” (như địa 
điểm A). Thành ra, so sánh giữa hai yếu tố can thiệp, như “low” và “high” phải 
điểu chỉnh độ dao động giữa các địa điểm. 


Phương án 2 - RCB (randomized block design): Với phương án này, mỗi 
địa điểm và mỗi mảnh đất sẽ được áp dụng một yếu tố can thiệp; do đó, hoàn 
toàn cân đối. Nếu xem ba mảnh đất ở mỗi địa điểm thí nghiệm là ba block, thì 
phương án này đảm bảo tại mỗi địa điểm, mỗi block được phân chia một can 
thiệp như sau: 


































MẢNH ĐẤT 3 
^ Medium 
8 Medum _ High 
c Hgh | Medum | - Low 
D Medum |  low | - High 
E Hgh |  Low | Medum 
F Low | High | Medum 











Phương án 3 - IBD (incomplete block đesign): Với phương án này, nhà 
nghiên cứu có thể chỉ cần 2 mảnh đất, và mỗi mảnh đất được áp dụng một yếu. 


tố can thiệp như sau: 
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ĐỊA ĐIỂM. MẢNHĐẤT1 Ô MẢNHĐẤT2 
A Low High 
5 Medum | Le | 
c Hgh | Medum | 
D Medum | low | 
E Hgh | Le | 
F Low | - High | 








Phương pháp phân tích kết quả từ các nghiên cứu này đã được trình bày 
trong chương 11. 


20.6 Thí nghiệm với hai yếu tố (two-factor designs) 


Các thiết kế vừa trình bày trong phần trên nhằm mục đích đánh giá ảnh 
hưởng của một yếu tố can thiệp. Trong nhiều trường hợp, nhà nghiên cứu 
muốn đánh giá ảnh hưởng của hai yếu tố can thiệp, và các phương án trên 
không thể ứng dụng được. Chẳng hạn như khi nhà nghiên cứu muốn phân 
tích ảnh hưởng của ánh sáng (cao hay thấp) và độ ẩm (khô hay ướt) đến sự 
tăng trưởng của cây giống trong một nhà kính (greenhouse), thì các phương 
án thí nghiệm với hai yếu tố cần phải được xem xét cẩn thận. 


Phương án 1 - CRD. Chúng ta muốn điểu tra ảnh hưởng của nhiệt độ 
(thấp và cao), vật liệu (A và B), và phương pháp sản xuất (cơ khí và hóa chất) 























đến độ mạ giấy. Các phối hợp yếu tố can thiệp có thể n 
NHIỆT ĐỘ. VẬT LIỆU. PHƯƠNG PHÁP. 
1 Thấp A Cơ khí 
? |_ œ | A Cơkhí 
3 | Thấp B Cơkhí 
4 |_ me | A Hóa chất 














Qua thiết kế này, chúng ta có thể phân tích ảnh hưởng của nhiệt độ bằng 
cách so sánh độ mạnh giữa nhóm I1 và 2. Ảnh hưởng của vật liệu có thể so. 
sánh giữa nhóm 1 và 3. Ảnh hưởng của phương pháp có thể so sánh giữa 
nhóm và 4. 
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Những so sánh trên hợp lí chỉ với điểu kiện là ảnh hưởng của các yếu tố 
can thiệp là cộng hưởng (additive effect). Nói cách khác, các so sánh trên chỉ 
hợp lí nếu ảnh hưởng của một yếu tố không phụ thuộc vào các yếu tố khác, 
chẳng hạn như ảnh hưởng của nhiệt độ không tùy thuộc vào ảnh hưởng của 
vật liệu hay phương pháp. Nếu giả định này không đúng thì kết quả so sánh có 
thể thiếu khách quan và sai. 


Phương án 2 - Giai thừa (factorial design). Một phương án khác cho. 
nhiều thông tin hơn phương án trên và cho phép chúng ta phân tích ảnh 
hưởng tương tác của các yếu tố can thiệp là factorial đesign. Trong trường 
hợp trên, chúng ta có 3 yếu tố can thiệp, và mỗi yếu tố có 2 bậc, cho nên tổng 
số là 2* = 8 nhóm như sau:_ 



































NHÔM CANTHIỆP | NHIỆTĐỘ VNTUỆU - j PHƯƠNGPHÁP 
1 Thấp A | Cơkhí 
? Cao A | — Cơkhí 
3 Thấp B | Cơ khi 
4 Cao L Cơ khí 
5s Thấp A Í_— hóa chất 
6 Cao ^ | Hóa chất 
7 Thấp B8 | Hồachất 
8 Cao B | Hóachất 

















Với phương án "cân đối” này, chúng ta có thể ước tính ảnh hưởng của mỗi 
yếu tố can thiệp đễ dàng: 

« _ Ảnh hưởng của nhiệt độ: so sánh nhóm 1, 3, 5, 7 và 2, 4, 6, 8; 

« _ Ảnh hưởng của vật liệu: so sánh nhóm 1, 2, 5, 6 và 3, 4, 7, 8; 

« _ Ảnh hưởng của phương pháp: so sánh nhóm 1, 2, 3, 4 và 5, 6, 7, 8. 

Ngoài ra, ảnh hưởng tương tác (interaction effects) cũng có thể ước tính 
bằng cách so sánh tổng hợp giữa các nhóm. Chẳng hạn như để biết ảnh hưởng 
của nhiệt độ có tùy thuộc vào phương pháp sản xuất hay không, chúng ta có 
thể so sánh giữa nhóm 1+3 và 2+4, và 5+7 với 6+8. 

Phương án 3 - Phân mẫu (Split-plot design). Để điểu tra ảnh hưởng 
của 3 loại giống đậu nành (A, B và C) và hai loại phân bón (P1 và P2), các nhà 
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nghiên cứu so sánh sản lượng đậu nành được trồng trọt dưới 6 điểu kiện can 
thiệp trên. Nếu mỗi điểu kiện can thiệp được lặp lại 2 lần, thì nghiên cứu cần 
2x6= 12 mảnh đất (plot) cho nghiên cứu. 

Một cách thiết kế cho nghiên cứu trên là phương án giai thừa như để cập. 
phần trên, nhưng phương án này có thể khó khăn trong thực tế. Một phương 
án khác dễ dàng hơn và thực tế hơn là phương án phân mẫu. Phương án này 
cần đến hai lần sắp xếp ngẫu nhiên. Trước hết, hai loại phân bón được phân 
chia một cách ngẫu nhiên cho 4 nhóm như sau: 


1 2 3 + 
P1 P2 P2 P1 











Bước hai, ba loại giống sẽ được phân ngẫu nhiên cho từng nhóm, và kết 











quả có thể giống như sau: 
1 + 3 + 
P1 P P P1 
8 € ^ 6 
^ B € ^ 
Š ^ B B 











Phương án 4 - Hình vuông Latin (Latin square). Công tỉ dấu muốn so 
sánh hiệu suất (đo bằng cây số - km - trên mỗi lít) của 4 loại dấu (A, B, C và D). 
Công tỉ có được 4 tài xế và 4 loại xe. Vì độ dao động hay khác biệt giữa người 
lái xe và loại xe, hai yếu tố này phải được kiểm soát trong khi thiết kế nghiên 
cứu. Phương án tốt nhất cho nghiên cứu này là phương án hình vuông Latin. 
"Theo phương án này, 4 loại dầu được phân chia một cách ngẫu nhiên cho từng 
tài xế và loại xe như sau: 

















tu3yÊ LOẠI XE 

FORD TOYOTA. HONDA NISSAN 
1 D 5 c A 
2 5D | |_ #8 | 8 
3 6 | 4 | B5 | 5 
4 ^ | D | B | € 
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Như vậy, tài xế 1 sẽ điểu khiển xe Ford với đấu loại D, sau đó là Toyota 
với loại dầu B, Honda với dấu C và Nissan với đầu A, v.v... Với phương án này, 
công tỉ có thể phân tích ảnh hưởng cộng hưởng của từng loại dầu, hay phân 
tích ảnh hưởng tương tác giữa loại dầu và loại xe, hay giữa loại dầu và tài xế. 
Cách phân tích số liệu từ phương án hình vuông Latin đã được mỏ tả chỉ tiết 
ở Chương 11 (11.7). 


20.7 Phương pháp ngẫu nhiên hóa 


Trong tất cả các phương án trên, một khía cạnh then chốt là sắp xếp các 
đối tượng nghiên cứu vào các yếu tố can thiệp một cách ngẫu nhiên (tôi sẽ 
gọi tất là ngẫu nhiên hóa - randomize). Giả dụ, chúng ta có 8 đối tượng (có 
thể là bệnh nhân) cần phân chia cho ba nhóm can thiệp T1, T2 và T3. Nếu 
theo yêu cầu, nhóm T1 và T3 mỗi nhóm cấn phải có 3 đối tượng và nhóm T2 
cần 2 đối tượng: 

















Vấn để đặt ra là làm cách nào để ngẫu nhiên hóa? Chúng ta có thể làm 
một số bước như sau: 


« _ Trước hết, chúng ta lập danh sách 8 đối tượng: 
T1 T1 T1 T2 T2 T3 T3 T3 


« Dùng hàm sample để chọn ngẫu nhiên (sample (1:8) có chức 
năng tạo ra một dãy số ngẫu nhiên từ 1 đến 8): 


> sample(1:8) 
(1172541863 

« _ Nhập hai dãy số với nhau, chúng ta có: 
!ởỞ TU TẠ T2 T2 Xã T3 Y3 
1 2 5 4 1 8 6 3 


Nói cách khác, đối tượng số 7, 2 và 5 sẽ nhận can thiệp T1, đối tượng 4, 1 
nhận can thiệp T2, và đối tượng 8, 6 và 3 nhận T3. 
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Bất cứ công trình nghiên cứu khoa học nào cũng được tiến hành theo một 
qui trình gần như bất biến: đặt giả thiết, thiết kế nghiên cứu, thu thập dữ liệu, 
phân tích dữ liệu, và báo cáo kết quả. Do đó, phân tích số liệu là khâu gần cuối 
cùng của một công trình nghiên cứu (trước khi diễn dịch kết quả phân tích 
và viết báo cáo khoa học). Các khâu trong qui trình nghiên cứu trên có liên 
hệ khắng khít với nhau. Nếu một khâu trong qui trình đó có vấn để thì hệ quả 
là khâu tiếp theo cũng có vấn để. Mượn cách nói của người xưa “Vạn sự khởi 
đầu nan? cũng có thể nói rằng khi thiết kế nghiên cứu sai thì kết quả phân tích 
cũng không có ý nghĩa gì. Tất cả các phương pháp phân tích số liệu chỉ cho ra 
kết quả tốt khi công trình nghiên cứu được thiết kế đúng và thích hợp. Do đó, 
xem xét cẩn thận các phương án nghiên cứu và đối chiếu với tình hình thực tế 
là một nhu cầu rất quan trọng cho nghiên cứu khoa học. 
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cẩn phải có ước tính số đối tượng cấn thiết. Hai chữ “đối tượng” ở 

đây cần phải hiểu theo nghĩa rộng: với nghiên cứu lâm sàng, đối 
tượng có thể là bệnh nhân; với nghiên cứu mang tính điểu tra xã hội, đối 
tượng có thể là cá nhân trong cộng đồng; với nghiên cứu trên động vật, đối 
tượng có thể là chuột. Mục tiêu của việc ước tính cỡ mẫu là ước tính số lượng 
đối tượng cẩn thiết (không quá thấp và cũng không quá cao) để kiểm định 
một hay nhiều giả thuyết khoa học. Số lượng đối tượng có liên quan đến đạo 
đức khoa học, qui mô nghiên cứu và chỉ phí, nên việc ước tính cỡ mẫu cần 
phải được xem xét và cân nhắc rất cẩn thận. 


M: nghiên cứu khoa học có liên quan đến quần thể và cỡ mẫu đều 


21.1 Thông tin cần thiết cho ước tính cỡ mẫu 

Những yếu tố cần phải xem xét và cân nhắc trong ước tính cỡ mẫu là mô 
hình nghiên cứu, biến số phân tích, mức độ ảnh hưởng, và mức độ sai sót 
trong kiểm định giả thuyết. Nhà nghiên cứu cần phải có những thông tin này 
trước khi ước tính cỡ mẫu. Không có những thông tin trên thì không thể ước 
tính cỡ mẫu. Dưới đây là vài giải thích ngắn về 4 thông tin trên. 


21.1.1. Mô hình nghiên cứu 

Trong nghiên cứu y khoa, người ta phân biệt các mô hình nghiên cứu 
theo thời gian như sau: 

Nghiên cứu cắt ngang (cross-sectional study) là mô hình nghiên cứu 
thường có mục tiêu ước tính một tỉ lệ hiện hành (prevalence) của bệnh ngay. 
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tại thời điểm thực hiện nghiên cứu. Ví dụ như nhà nghiên cứu muốn ước tính 
số người mắc bệnh xương khớp trong quần thể, nhà nghiên cứu có thể lấy 
mẫu gồm n cá nhân, và làm xét nghiệm để xác định có mắc bệnh hay không. 
"Tỉ lệ mắc bệnh có thể ước tính từ xét nghiệm ngay tại thời điểm đó. 

Nghiên cứu bệnh chứng (case-control study) là nghiên cứu ngược thời gian 
để đánh giá mối liên quan giữa một yếu tố nguy cơ và bệnh. Thông thường, 
nhà nghiên cứu chọn một nhóm bệnh nhân và một nhóm chứng, và thu thập 
thông tin về yếu tố nguy cơ trong quá khứ của mỗi cá nhân. 

Nghiên cứu đoàn hệ (prospective study, có khi còn gọi là longitudinal 
study) là nghiên cứu thường có mục tiêu tìm hiểu yếu tố nguy cơ có ảnh 
hưởng đến nguy cơ mắc bệnh. Chẳng hạn như để đánh giá mối liên quan giữa 
tỉ trọng cơ thể (body mass index - BMI) và tử vong, nhà nghiên cứu có thể lấy 
mẫu ø cá nhân, đo BMI lúc ban đầu, và sau đó theo đõi trong vòng [ví dụ như] 
5 năm để biết bao nhiêu người sống và tử vong. Mối liên quan giữa BMI lúc 
ban đấu và nguy cơ tử vong có thể phân tích từ đữ liệu theo thời gian như thế. 
Nghiên cứu lâm sàng RCT (randomized controlled trials) có thể xem là một 
mô hình nghiên cứu đoàn hệ. 


21.1.2. Biến số kết quả 


Một nghiên cứu định lượng thường có một biến số chính, hay gọi là 
outcome hay biến kết quả. Biến kết quả có thể là biến liên tục (như huyết áp, 
nồng độ glucose, mật độ xương, v.v.) hoặc biến nhị phân (như sống/chết, 
bệnh/không bệnh). Phân biệt biến kết quả rất quan trọng vì sự phân biệt này 
xác định phương pháp ước tính cỡ mẫu. 


21.1.3. Mức độ ảnh hưởng 


Đây là một thông tin rất quan trọng cho ước tính cỡ mẫu. Không có thỏng 
tin này thì không thể nào ước tính cỡ mẫu. Trong thực tế, mức độ ảnh hưởng 
(còn gọi là eƒfeet size - SE) tuỳ thuộc vào mô hình nghiên cứu. Dưới đây là vài 
mô tả về cách xác định thông tin về mức độ ảnh hưởng đơn giản: 

« _ Nếu là nghiên cứu cất ngang, và mục tiêu là ước tính một tỉ lệ hiện 
hành (prevalence rate). Nhưng vì tỉ lệ có thể dao động giữa các mẫu. 
nghiên cứu, nên một tham số khác cấn phải xem xét đến: đó là sai số 
(gọi là margin oƒ error). Già dụ rằng chúng ta biết rằng tỉ lệ là p và sai 
số là e, thì ES =p/e. 
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» _ Nếu là nghiên cứu cắt ngang, và mục tiêu là ước tính một tham số liên 
tục. Chẳng hạn như để ước tính mật độ xương trong quần thể, nhà 
nghiên cứu có thể lấy mẫu cá nhân, và đo mật độ xương. Trị số trung 
bình của mẫu là một ước số cho giá trị trung bình của quần thể. Do 
đó, trị số trung bình mẫu vẫn chịu sự dao động ngẫu nhiên giữa các 
mẫu, và sai số để mô tả là saí số e. Trong trường hợp này, ES = m /e. 

» _ Nếu là nghiên cứu có mục tiêu so sánh giữa hai nhóm, và trong trường 
hợp này nghiên cứu phải có hai tham số về trung bình (T, và T;,) và 
tham số về độ lệch chuẩn (S, và S,), ES được định nghĩa là hiệu số giữa 
T, và T, chia cho S: 

T~T, 


_ Nếu biến kết quả là biến liên tục, nghiên cứu sẽ có hai số trung bình mị và 
m.„ và trong trường hợp này, E§=(m, —m,) / jJs +8 
Nếu biến kết quả là biến nhị phân, nghiên cứu sẽ có hai tỉ lệ p, và p,„ và trong, 
trường hợp này, ES có thể ước tính bằng hiệu số ES = arcsin(p,) ~ arcsin(/,). 


21.1.4. Mức độ sai sót trong kiểm định giả thuyết 


Đứng trên quan điểm phương pháp luân, mỗi nghiên cứu thường có mục 
đích kiểm định một giả thuyết khoa học chính. Trong thống kê, người ta phân 
biệt 2 loại giả thuyết: giả thuyết vô hiệu (nưjl hypothesis, thường kí hiệu là 
H0) và giả thuyết đảo (alternative hypothesis, kí hiệu HA). Giả thuyết vô hiệu, 
như tên gọi, phát biểu ngược lại với những gì nhà nghiên cứu muốn biết. Nếu 
giả thuyết đảo (hay giả thuyết chính) là bệnh nhân nhóm A có nguy cơ biến 
chứng cao hơn bệnh nhân nhóm B, thì giả thuyết vô hiệu sẽ phát biểu là “bệnh 
nhân nhóm A có nguy cơ biến chứng cao hơn bệnh nhân nhóm B” Tương tự, 
nếu giả thuyết chính phát biểu rằng có mối tương quan giữa X và Y, thì giả 
thuyết vô hiệu phát biểu rằng không có mối tương quan giữa X và Y. 

Ví dụ như, nếu nhà nghiên cứu muốn xác định hiệu quả của thuốc chống 
loãng xương, và quyết định tiến hành một nghiên cứu theo mô hình RCT, 
với hai nhóm bệnh nhân: Một nhóm được điếu trị bằng thuốc và một nhóm. 
chứng, cả hai nhóm được theo dõi 3 năm. Biến kết quả là tỉ lệ gãy xương trong 
thời gian theo dõi. Gọi tỉ lệ gãy xương của hai nhóm là p, và p„ giả thuyết vô 
hiệu (kí hiệu H0) là: 


Hồ: p, =p, 
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Và giả thuyết chính có thể là: 

HÀ: P,#P, 

Nên nhớ rằng, nhà nghiên cứu không thể chứng minh H0; nhà nghiên. 
cứu chỉ có thể bác bỏ H0 và do đó gián tiếp chấp nhận HA. Cơ sở để bác bỏ 
hay chấp nhận một giả thuyết là chỉ số thống kê (như t test, Ki bình phương, 
hồi qui tuyến tính, v.v.). Kết quả kiểm định thống kê có thể "có ý nghĩa 
thống kê" (statistical significance) hay không có ý nghĩa thống kê (statistical 
insignifcance). Do đó, mỗi kiểm định giả thuyết, nhà nghiên cứu phải đối phó 
với 4 tình huống (xem bảng): 

Bảng 1: Kết quả kiếm định thống kê và giả thuyết vô hiệu 


'ĐỊNHTHỐNGKÊ | GIẢTHUYẾTHoĐÚNG. 'GIẢ THUYẾT H0 SAI 
bác bỏ H0) Sai sót loại l(type Ì error, a.) Đúng 








Có ý nghĩa (t 





{không có ý nghĩa (chấp nhận Họ)| Đúng {Sai sótloai typeeror, ø)| 





» _ Kết quả kiểm định "có ý nghĩa thống kế; và giả thuyết H0 là đúng, nhà 
nghiên cứu kết luận sai, và sai sót này tạm gọi là sai sót loại I (type Ï 
error, hay alpha); 

« _ Kết quả kiểm định “có ý nghĩa thống kể? và giả thuyết H0 là sai, nhà 
nghiên cứu kết luận đúng; 

» _ Kết quả kiểm định “không có ý nghĩa thống kể; và giả thuyết H0 là 
đúng, nhà nghiên cứu kết luận đúng; 

« _ Kết quả kiểm định “không có ý nghĩa thống kể; và giả thuyết H0 là 
sai, nhà nghiên cứu kết luận sai, và sai sót này tạm gọi là sai sót loại II 
(type II error, hay beta). 


Nhà nghiên cứu phải xác định mức độ sai sót loại I và loại II trước khi ước. 
tính cỡ mẫu. Thông thường, alpha được xác định ở mức 0.05 hay 0.01, còn đối 
với beta, các nhà nghiên cứu thường chấp nhận sai sót 0.20 hay 0.10. Cần nói 
thêm rằng, 1 - beta còn được để cập đến là power. Power của một nghiên cứu 
là độ nhạy của nghiên cứu đó (cũng tương tự như độ nhạy hay sensitivity của 
một xét nghiệm chẩn đoán). Cần nhắc lại rằng, độ nhạy của một xét nghiệm 
có nghĩa là xác suất mà một cá nhân mắc bệnh có kết quả dương tính. Do đó, 
power của nghiên cứu là xác suất mà nghiên cứu cho ra kết quả có ý nghĩa 
thống kê nếu giả thuyết HA đúng (H0 sai). 

Mỗi sai sót œ và Ø đi kèm theo một hằng số của phân bố chuẩn (2), và 
hằng số này được sử dụng trong tính toán cỡ mẫu. Chẳng hạn như (trong 
trường hợp kiểm định 2 chiếu) nếu œ = 0.05 thì z = 1.96, nếu œ = 0.01 thì 
z= 2.56. Sau đây là vài hằng số phố biến: 
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Bảng 2: Hằng số z liên quan đến sai sót loại I và loại II 
HÀNG SỐ Z LIÊN QUAN ĐẾN (+ | HÀNG SỐZLIÊN QUAN ĐẾN (j 
(KIẾM. 'CHIỀU) 




















ĐỊNH 2: 

01,2=2576 8 =001, z=2326 

05, z= 1.960 8 =005, z= 1645 
a =0.10, z=1.645 j =0.10, z= 1282 
a =020, z=1.282 j =0.20, z=0.842 











Chú thích: có thể tính bằng hàm qnorm(x/2), trong đó x = 0.01, 0.05, 0.10, v.v. 


21.2 Ước tính cỡ mẫu bằng R 


Phần lớn các phương pháp ước tính cỡ mẫu có thể tóm gọn trong công 
thức sau: 
a8 
„~tC(2) 
(E5) 
Trong đó, k là hằng số cố định, C( œ,, / ) là hằng số z liên quan đến sai sót 
loại I và sai sót loại II như sau: 











Saisố a Salsổ (j=046 | Salsố /ï=020 


005 C=l30 | C=785 








| 001 | c3 | c-nz 





Trong công thức trên, vì ES là mẫu số, nên nếu ES thấp thì n sẽ tăng, và 
nếu ES cao thì m sẽ giảm. Tất cả các phương pháp ước tính cỡ mẫu qua công 
thức trên có thể triển khai trong R một cách dễ dàng. Tuy nhiên, trong R có 
một số package (như samplesize, pwr, epicale) có thể sử dụng cho 
ước tính cỡ mẫu, và người sử dụng chỉ cần gõ lệnh và cung cấp những thông 
tin vừa mô tả. Phần dưới đây, tôi sẽ minh hoạ một số trường hợp ước tính cỡ 
mẫu cho từng mô hình nghiên cứu và biến kết quả. Mỗi trường hợp sẽ được 
bắt đầu bằng vài điểm chính về lí thuyết và minh họa bằng một ví dụ cụ thể. 


21.2.1. Cỡ mẫu để ước tính một tỉ lệ 

Lí thuyết: Nhiều nghiên cứu có mục đích đơn giản là ước tính tỉ lệ. Chẳng 
hạn như các cuộc điểu tra xã hội muốn biết bao nhiêu người thích hay không 
thích một đảng phái chính trị hay một món hàng, hoặc nghiên cứu y tế công 
cộng có mục đích ước tính tỉ lệ hiện hành (prevalence) của một bệnh. 
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Gọi m là tỉ lệ trong quấn thể (population) mà chúng ta không biết, 
nhưng muốn ước tính dựa trên một mẫu nghiên cứu (sample). Gọi p là tỉ 
lệ có thể tính từ mẫu nghiên cứu gồm nở đối tượng. Với giá trị p và 0 chúng 
ta có thể ước tính khoảng tin cậy (1- œ )% của m dao động trong khoảng 
(p~z.se)<= <(p+z.ae), trong đó e=jp(I=p)!n là sai số mẫu - margin of 
error. Trong thực tế, e chính là sai số chuẩn [standard error] của p. Do đó, 
phát biểu ngược lại, số cỡ mẫu øé cấn thiết cho nghiên cứu phụ thuộc vào œ, 
e và giá trị p như sau: 


a=[f:”] sú-p) — H 


Ví dụ 1: Nhà nghiên cứu muốn ước tính cỡ mẫu cho một nghiên cứu có 
mục tiêu chính là xác định tỉ lệ bệnh tiểu đường. Theo y văn, tỉ lệ bệnh tiểu 
đường trong cộng đồng người trung niên là 10%. Nói cách khác, p = 0.10. Nhà 
nghiên cứu muốn ước tính số đối tượng cẩn thiết để ước tính tỉ lệ đó, và chấp 
nhân xác suất 95% là tỉ lệ có thể dao động trong khoảng 8% đến 12%. Nói cách 
khác e = (0.12 - 0.08) / 4 = 0.01, tức sai số là 1%. 


Chúng ta có thể dùng công thức [1] để ước tính; trong đó, z,„ = 1.96 
(xem bảng 2), p = 0.10, và e = 0.01. Chúng ta có thể tính thủ công với R: 





Hoặc dùng hàm n. for. survey trong epicale như sau. Chú ý nếu 
chưa có epicalc trong R, cần phải cài đặt trước với lệnh insta11.packages 
("epicale"). Trong epicalc, sai số e được gọi là delta. 


Kết quả cho thấy n = 3457. Nói cách khác, nhà nghiên cứu cần tuyển ngẫu 
nhiên 3457 đối tượng cho công trình nghiên cứu. 

Cách tính trên dành cho trường hợp dân số vô hạn (infnite). Trong 
trường hợp nhà nghiên cứu biết rằng một cộng đồng có dân số N, ví dụ như 
100,000 người, thì cách tính có thay đối: 
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n “= n.for.survey(p“0.10, delta=0.01, alpha=0.05, 

popsize=100000) 

Kết quả cho thấy n = 3342. Di nhiên, thay đổi delta (tức e) sẽ thay đổi 
số cỡ mẫu khá lớn. Chẳng hạn như nếu nhà nghiên cứu chấp nhận sai số 2% 
(delta=0.02) thì số cỡ mẫu bây giờ là n = 857 người. 


21.2.2. Cỡ mẫu để ước tính số trung bình quần thể 


Lí thuyết: Chúng ta muốn ước tính giá trị trung bình ¡¡ của một biến trong 
quần thể (không biết). Tuy nhiên, chúng ta biết rằng độ lệch chuẩn của biến là ơ. 
'Với một mẫu gồm nở đối tượng, chúng ta có thể ước tính giá trị trung bình mẫu 
tm, và theo lí thuyết thống kê, giả trị trung bình quần thể sẽ nằm trong khoảng 
m+Z, „(ơ In) với khoảng tin cậy (1 - œ)%. Gọi z, „( ơ /Ýn) là sai số e, giải 
phương trình trên để tính n, chúng ta có công thức ước tính cỡ mẫu đơn giản: 


;~(*=°} Ị 
e 

Ví dụ 2: Chúng ta muốn ước tính tuổi bị ung thư vú, và muốn làm một 
nghiên cứu cắt ngang. Thông tin mà chúng ta có là độ lệch chuẩn của độ tuổi 
ung thư là 12 tuổi, và chúng ta muốn ước tính độ tuổi ung thư chính xác trong 
khoảng # 2. 5 tuổi (tức độ rộng của khoảng tin cậy 95% là 5 tuổi). Nói theo. 
ngôn ngữ thống kê của công thức [2], chúng ta có: e = 2.5 và ơ = 12. 


Dùng R: 





Kết quả là chúng ta cẩn n = 88 đối tượng cho công trình nghiên cứu. 


21.2.3. Cỡ mẫu để so sánh 2 tỉ lệ 
Lí thuyết: Trong trường hợp hai tỉ lệ z , và z: „ tham số mà chúng ta quan 
tâm là hiệu số ô = Z,~ z „ Để kiểm định giả thuyết vô hiệu z,= z „ chúng 
ta sẽ ước tính 2 tỉ lệ p, và p, từ mẫu nghiên cứu ni, và n, đối tượng. Kiểm định 
z cho 2 tỉ lệ là: 
Z=(p,~p,)1SD 
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Trong đó, SD là độ lệch chuẩn của hiệu số: 


s-jesl) 


và Z là tỉ lệ trung bình, tức Ø = (p, + p,) /2. 
Giả định rằng, cỡ mẫu hai nhóm tương đương nhau và gọi chung là n, giải 

2 phương trình trên, chúng ta sẽ có công thức ước tính cỡ mẫu (1): 
„-2P(-P)Œ.›+z:)` 


I3] 
(p.~p;)` 








Ví dụ 3: Một nghiên cứu lâm sảng có mục tiêu đánh giá hiệu quả của 
một thuốc điểu trị bệnh ung thư vú. Mô hình nghiên cứu là RCT; nhà nghiên 
cứu chia bệnh nhân thành 2 nhóm: nhóm dùng thuốc hiện hành (nhóm 1) 
và nhóm dùng thuốc mới (nhóm 2). Biến kết quả là tỉ lệ sống sót sau 5 năm. 
Sau khi duyệt qua y văn, nhà nghiên cứu biết rằng tỉ lệ sống sót của nhóm 1 là 
P, = 75%, và giả thuyết rằng thuốc mới sẽ tăng cải tiến tỉ lệ sống sót 20%, tức 
p; = 90% (lấy 75*1.2). Nhà nghiên cứu muốn ước tính cỡ mẫu sao cho nghiên. 
cứu có xác suất 90% để “phát hiện” mức độ ảnh hưởng đó với xác suất sai sót 
loại I là 5%. 


Sử dụng công thức [3] cho ví dụ trên, chúng ta có p, = 0.75; p, = 0.90; 
Z,„„= 1.96; z„ = 1.282. Chúng ta có thể dùng hàm n. for. 2p trong epicale 





'Kết quả cho thấy n = 292 bệnh nhân (146 cho nhóm 1 và 146 cho nhóm 2). 
Chú ý trong hàm trên, power là 1 - 8 = 1 - 0.10 = 0.90. Tham số ratio = 1 có 
nghĩa là số cỡ mẫu của nhóm 1 bằng số cỡ mẫu của nhóm 2. Nếu chúng ta 
muốn số cỡ mẫu nhóm 2 hơn nhóm 1 gấp 2 lần thì ratio = 2. 


21.2.4. Cỡ mẫu để so sánh 2 số trung bình 


Lí thuyết: Đối với nghiên cứu so sánh hai nhóm độc lập với biến kết quả là 
biến liên tục, tham số quan tâm là hiệu số của hai số trung bình quần thể z , 
và Ty tức ỗ = TT, Giả thuyết đặt ra là: 
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HH: nụ = mr hay ổ =0 
HA: m, # rr, hay ồ # 0 
Dĩ nhiên, chúng ta không biết z, và z , mà chỉ có thể ước tính hai số 

trung bình z, và im, qua mẫu ñ, và ø, đối tượng. Phương pháp căn bản để 
kiểm định giả thuyết là t-test. Gọi mm, và zm, là số trung bình mẫu của hai 
nhóm, s, và s, là độ lệch chuẩn, và ø, và n, là số đối tượng cho hai nhóm so 
sánh, kiểm định t được định nghĩa là hiệu số của hai số trung bình chia cho 
độ lệch chuẩn của hiệu số: 

¡=__h—m; 

$D(m, —m;) 


Trong đó, 





Giả dụ rằng cỡ mẫu của hai nhóm bằng nhau ø, = ø, và gọi chung là 
n=",= n,. Vấn để là tìm nở sao cho giá trị của ? có nghĩa thống kê, tức sao cho. 
trị số P của £ thấp hơn œ.. Giải phương trình trên, chúng ta có (1): 


4 


I5] 





Nếu œ = 0.05 và  = 0.20 (tức power bằng 0.8), thì công thức trên còn 
đơn giản hơn: 


"rạp 6 
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Ví dụ 4: Để đánh giá hiệu quả của thuốc chống loãng xương, nhà nghiên 
cứu thiết kế một nghiên cứu lâm sàng gốm 2 nhóm bệnh nhân: Nhóm. 
1 được điểu trị bằng thuốc mới, nhóm 2 là nhóm chứng (placebo). Biến 
kết quả là mật độ xương hay BMD (tính bằng g/cm). Qua nghiên cứu sơ 
khởi, nhà nghiên cứu biết rằng BMD trung bình ở phụ nữ sau mãn kinh là 
m, = 0.80 g/cm' và độ lệch chuẩn là s = 0.12 g/cm?. Qua y văn, nhà nghiên 
cứu biết rằng thuốc có thể tăng BMD 5% sau 1 năm điểu trị. Do đó, có thể 
nói mục tiêu là BMD trung bình của nhóm điểu trị làm, = 0.8 x 1.05 = 0.84. 
Giả dụ rằng độ lệch chuẩn của nhóm 2 cũng là 0.12 g/cm?. Nói cách khác, độ 
ảnh hưởng ES là: ES = (0.84 - 0.80) / 0.12 = 0.33. Nhà nghiên cứu muốn có 
power là 80% và sai sót loại I là 5%. Công thức ước tính cỡ mẫu cho trường 
hợp này là: 








„<2 Œ.a*z,} 
== x 
(m,—m,) 


Chúng ta có thể dùng hàm n.. for .2means trong epica1e để ước tính 
cỡ mẫu: | 





"Trong hầm trên mu1 và mu2 là chỉ số trung bình của hai nhóm, sđ1 và 
sd1 là độ lệch chuẩn của hai nhóm, và giả dụ rằng cỡ mẫu nhóm 1 bằng nhóm 
2 (ratio = 1). 


Kết quả cho thấy nhà nghiên cứu cần tuyển n = 284 bệnh nhân (142 cho 
mỗi nhóm) cho công trình nghiên cứu. 


21.2.5. Cỡ mẫu so sánh hai xác suất sống sót (survival curves) 


Lí thuyết: Đối với nghiên cứu so sánh hai nhóm độc lập với biến kết 
quả là biến thời gian sống sót (survival time), cách ước tính cỡ mẫu còn 
tuỳ thuộc vào số biến cố xảy ra. Do đó, có hai ước tính: số biến cố xảy ra 
cần quan sát và số đối tượng (bênh nhân). Trong phân tích sống còn, chỉ 
số quan trọng nhất là hazard ratio (HR, tức tỉ số rủi ro). HR là tỉ số của hai 
xác suất biến cố xảy ra tại một thời điểm (kí hiệu là 3, và 2, cho 2 nhóm 
so sánh): 
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HR=ˆ" 
4; 


Nếu giả định rằng (và trong thực tế cũng phù hợp cho nhiều trường hợp) 
xác suất sống còn tuân theo luật phân bố mũ (exponential distribution), mối 
liên quan giữa 2 và tỉ lệ sống sót z tại thời điểm T và trung vị thời gian sống. 
còn A có thể tóm tắt: 

2 =_log =r _ —log0.5 
T M 

Nhưng trong thực tế, rất khó có được 2, và 2 „ nên HR thường được 

ước tính dựa vào xác suất sống sót (kí hiệu z, và Z,): 


log 
logz~; 





HR= 





Dĩ nhiên, qua công thức trên, chúng ta có thể phát biểu rằng: 
z;=exp(HRxlogz.). 

Trong nhiều trường hợp, chúng ta có thể nghĩ đến số trung vị thời gian 
sống sót (median survival time) M, và M, cho hai nhóm, và HR có thể định 
nghĩa là: 


Hạ= 1 
M; 


Với những lí giải trên, và nếu chúng ta giả định rằng số bệnh nhân nhóm 
1 và nhóm 2 theo tỉ lệ 1/r, thì số biến cố cẩn quan sát cho nhóm 1 (với sai sót 
œ và j3) là (2): 








J li DỊ 
(I+r)z (1-HR 

và số biến cố cẩn quan sát cho nhóm 2: e; =re,. 

Tương tự, chúng ta có thể tính số bệnh nhân cho nhóm 1 là: 


—1- (E.z+ I+rHR\2 
^®~z[0=z)+rd sim) l8] 











và số bệnh nhân cho nhóm 2: 7; =rm,. 
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với œ« =0.05 và /} =0.20. Kết quả chỉ tính cho nhóm 1 (e,). Nhóm 2 là e2 = 


Bảng 3: Số biến cố cần quan sát để so sánh hai hàm số sống còn 





































































































T2 | e05 | 040 | 645 | 620 | 025 | 030 | 035 | 040 | 045 | 0.50 

0410 | 230 

015 | 78 | 422 

020 | 44 | 126 | 584 

025 | 30 | 64 | 163 | 708 

030 | 22 | 40 | 79 | 189 | 793 

035 | 17 | 29 | 48 | 89 | 206 | 839 

040 | 14 | 22 | 33 | 53 | 95 | 214 | 851 

045 | 12 17 | 24 | 35 | 55 | 96 | 213 | 832 

050 | 11 14 19 | 25 | 36 | 55 | 94 | 205 | 787 

055 | 9 12 15 19 | 25 | 35 | 53 | 89 | 191 | 721 

060 | 8 10 | 12 | 15 | 19 | 25 | 33 | 49 | 82 | 172 

065 | 8 9 10 | 12 | 15 | 18 | 23 | 3! 44 | 73 

070 | 7 8 9 10 | 12 | 14 | 17 | 21 27 | 39 

075 | 6 7 8 bì 10 | 11 13 15 18 | 23 

080 | 6 6 7 7 8 9 10 | 11 13 | 15 

085 | 5 6 6 6 7 7 8 ° 9 11 

090 | 5 5s 5 6 6 6 6 7 7 8 

095 | 5 5 5 5 5 5 5 5 6 6 
050 | 0455 | 060 | 065 | 070 | 075 | 0.80 | 0485 | 0.90 | 0.95 

055 | 721 

060 | 172 | 638 

065 | 73 | 149 | 544 

070 | 39 | 62 | 125 | 444 

075 | 23 | 32 | 51 99 | 343 

080 | 15 | 19 | 26 | 39 | 74 | 246 

085 | 11 12 | 15 | 20 | 29 | 51 | 159 

090 | 8 9 10 | 11 14 | 19 | 31 87 

095 | 6 6 6 7 8 9 1" 15 | 33 
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Ví dụ 5: Một nghiên cứu lâm sàng theo mô hình RCT nhằm mục đích đánh 
giá hiệu quả của levamisole (một loại thuốc điểu trị ung thư ruột) so với nhóm. 
chứng (placebo). Qua y văn, biết rằng tỉ lệ sống sót trong vòng 1 năm của nhóm 
chứng là 50%, và hi vọng rằng nhóm được điểu trị là 60%. Số biến cố cẩn quan 
sát để đạt œ = 0.05 và  = 0.20 là 172 cho nhóm I và 172 cho nhóm 2. 

Có thể áp dụng công thức [7] để tính. Trong đó, chúng ta có Z, = 0.5 và 
7, = 0.60, HR = log(0.6) / log(0.5) = 0.7369, và nếu r = 1 (cỡ mẫu hai nhóm 
bằng nhau): 

— (I-96+0.842)° be 


- ———j“l2 
(#+1)xI V 1=07369 


Cũng có thể tính bằng hàm epi.studysize trong package epiR như sau: 





21.2.6. Cỡ mẫu cho nghiên cứu bệnh chứng 


Trong nghiên cứu bệnh chứng, như để cập trong phần đầu, mục tiêu là so 
sánh tỉ lệ phơi nhiễm yếu tố nguy cơ giữa nhóm bệnh và nhóm chứng. Gọi E 
là có yếu tố nguy cơ, NE là không có yếu tố nguy cơ, D là bệnh, ND là không 
mắc bệnh (nhóm chứng). Trong nghiên cứu bệnh chứng, chúng ta có thể ước 
tính mt, là xác suất E trong nhóm bệnh, và mr, là xác suất E trong nhóm chứng: 

m,= P(Œ | D) 
_ = PŒ | ND) 








“H0:m= T, | 
HAs/s=à 

Xin nhắc lại rằng chúng ta không biết mr, và m,, trong quần thể. Tuy nhiên, 
với mẫu nghiên cứu, chúng ta có thể ưóc tính hai chỉ số tương ứng là p, và p,. 
Gọi P = xác suất phơi nhiễm yếu tố nguy cơ = P(E), chúng ta có thể nói rằng tỉ 
lệ quan sát p, = P. Với giả thuyết HA, chúng ta có tỉ lệ phơi nhiễm yếu tố nguy 
cơ trong nhóm chứng là: AP 


_ 1*(1-1)P 





, 
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Số cỡ mẫu n có thể ước tính từ các lí giải trên như sau (1): 


+I[x(2-1)ƒ z„ữ*2)P0=P)+z, [ra] I9] 
+(A-I 


r*(P=Đÿ (2+) 





Trong đó: r là tỉ số cỡ mẫu nhóm bệnh trên nhóm chứng (thường r = 1), và 
P rÃ 
——|———+I 10) 
trữ UỤ) 

Ví dụ 6: Một nghiên cứu bệnh chứng về mối liên quan giữa hút thuốc lá 
và bệnh tim mạch được hoạch định. Theo kế hoạch, một nhóm bệnh nhân 
và một nhóm chứng (cỡ mẫu như nhau, tức r = 1) sẽ được so sánh về tỉ lệ hút 
thuốc lá. Các nhà nghiên cứu đặt giả thuyết tỉ số nguy cơ là 2, khoảng 30%. 
người trong cộng đồng hút thuốc lá. Câu hỏi đặt ra là cẩn bao nhiêu người 
cho nghiên cứu để có power 90% để phát hiện tỉ số đó có ý nghĩa thống kê ở. 
mức độ 5%. Trong trường hợp này, chúng ta có: P = 0.30, À = 2,Z,„ = 1.96, và 
z¿ = 1.2816. 

Thay các giá trị này vào phương trình [10]: 








LÓ lu TẾ 
1+03 





+ | =0.3808 








và số cỡ mẫu là: 


"êm 1.96, (2(0.3808)(0.6192) +1.28 Ÿ =316 











Trong hàm trên, nhóm control và treat được cho giá trị sao cho 2 = 2, 
sigma là tỉ lệ hút thuốc lá (tức yếu tố phơi nhiễm trong nhóm chứng). 
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21.2.7. Cỡ mẫu cho nghiên cứu đoàn hệ 


Lí thuyết: Nghiên cứu đoàn hệ (prospective cohort study) thường có mục 
tiêu tiên lượng và đánh giá yếu tố nguy cơ liên quan đến bệnh. Ngược lại với 
nghiên cứu bệnh chứng (đi ngược thời gian), nghiên cứu đoàn hệ đi xuôi theo. 
thời gian. Theo đó, nhà nghiên cứu chọn một nhóm đối tượng, đo lường các 
yếu tố tiên lượng hay yếu tố nguy cơ lúc đầu, và sau đó theo đõi một thời gian 
để thu thập số ca mắc bệnh. Chỉ số thống kê để đánh giá mối liên quan giữa 
một yếu tố nguy cơ (như hút thuốc lá chẳng hạn) và nguy cơ mắc bệnh là tỉ 
số nguy cơ (còn gọi là risk ration hay relative risk - RR). Gọi xác suất mắc bệnh 
(còn gọi là nguy cơ - risk) trong thời gian theo dõi ở nhóm có yếu tố nguy cơ 
là p„ và nhóm không có yếu tố nguy cơ là p,, RR được định nghĩa đơn giản là: 


- —_ NWrplip — 
_ Vấn để thống kê tt tong tượng và số bệnh cắn thiết sao cho RR. 
có ý nghĩa thống kê (tức P < a) với power 1-ÿ. `. 
Giả thuyết đặt ra là: 











H0: RR = I (hay m, = m,) 
HA: RR z 1 (hay mụ # 1.) 

Trong đó, m, và m, là nguy cơ mắc bệnh ở nhóm có yếu tố nguy cơ và 
nhóm không có yếu tố nguy cơ trong quấn thể. Tuy nhiên, với mẫu nghiên 
cứu, chúng ta có thể ước tính hai chỉ số tương ứng là p, và p,. Phương pháp 
ước tính cỡ mẫu có thể dựa vào phương pháp ước tính cỡ mẫu cho hai tỉ lệ 
theo hướng RR. Có thể chứng minh qua một số thao tác toán, số cỡ mẫu cần 
thiết là (1): 





I 
"5 cay Es:VỮ *IÑ=Z)+z„JRRZ.T=RRZ.}+rnT= z2} IH] 
Trong đó, r là tỉ lệ mắc bệnh trung bình của hai nhóm: 


x--RR+1) 
r+l 


Trong trường hợp r = 1 
JH.+;| 
x.= Iem| 


'lpe/ffeulun heploerg 


Ví dụ 7: Nhà nghiên cứu muốn đánh giá mối liên quan giữa hút thuốc lá 
và bệnh tim mạch qua một nghiên cứu đoàn hệ mà đối tượng sẽ được theo dõi 
5 năm. Trước đây, có nghiên cứu cho thấy tỉ lệ tử vong vì bệnh tim mạch mỗi 
năm ở người không hút thuốc lá là 413 / 100,000. Nhà nghiên cứu giả định rằng 
hút thuốc lá sẽ tăng nguy cơ tử vong 40% (nói cách khác, RR = 1.4). Nhà nghiên 
cứu muốn ước tính số cỡ mẫu (số người hút thuốc lá và không hút thuốc lá) 
cần thiết với điểu kiện œ = 0.05 (một chiếu) và power = 90% (tức beta = 0.1). 

Ở đây, chúng ta có thể ước tính vài thông số cẩn thiết như sau: tỉ lệ 
tử vong 5 năm nhóm không hút thuốc là rr,= 5 x 413/100000 = 0.02065, 
T4, = 0.02065 x 1.4 = 0.02891,z,„„ = 1.6449, z,„„= 1.2816. Nếu r = 1, chúng ta có: 


“010 


„- 002065%24 _ 0021 
và: 2 
n=—~—?—|.6449,((BÝ002478X0.97522)+ 1.2816 j{002891X0.02065X0.97935)] =12130 
0.4(0.02065} 


Nói cách khác, nhà nghiên cứu cần tuyển 12130 cá nhân (6065 người hút 
thuốc và 6065 người không hút thuốc) cho công trình nghiên cứu. 


Có thể dùng hàm epi . studysize trong epiR và có cùng kết quả: 








21.2.8. Cỡ mẫu cho nghiên cứu chẩn đoán 
Lí thuyết: Trong nghiên cứu chẩn đoán, nhà nghiên cứu hay quan tâm. 
đến hai chỉ số quan trọng: độ nhạy (sensitivity) và độ đặc hiệu (specifcity). 
Độ nhạy, có khi hiểu là đương tính thật hay true positive, là xác suất bệnh nhân. 
có kết quả dương tính (+ve). Độ đặc hiệu, có khi hiểu là âm tính thật hay frue 
negative, là xác suất một người không có bệnh có kết quả xét nghiệm âm tính. 
(-ve). Gọi D là bệnh, ND là không bệnh, định nghĩa trên có thể viết theo ngôn. 
ngữ xác suất như sau: | 

Sensitivity = P(+ve | D) 

l. =P(-ve |ND' 

440D 


'lpe/eulun heploerg 


Do đó, trong nghiên cứu chẩn đoán, chúng ta muốn biết cấn bao nhiêu. 
bệnh nhân (n,) để “chứng minh” một độ nhạy này với độ nhạy khác. Thông 
thường, chúng ta muốn so sánh độ nhạy của nghiên cứu (Se) và với độ nhạy. 
hiện tại (Se,). Phương pháp ước tính n, có thể dựa vào phương pháp ước tính 
cỡ mẫu cho 2 tỉ lệ (2): 


„-Ea St '$,)+z, jSe(1— Sẽ) Ï Hai 
=————o-ar---.- 12 
(Se, —Se)` 
Nếu nghiên cứu muốn so sánh hai độ nhạy (Se, và Se,), công thức trên có 
thể chỉnh sửa thành (cho hai nhóm độc lập): "¬ 











„ ~Ee-VÊ% + %e,X2-— $e, ~ $e,)+ zsaj2[Se,ÍI— Se,)+ Se,(I— Se Bi t3] 
(%,~ %,} 


Công thức trên ước tính cỡ mẫu cho 2 nhóm độc lập. Trong nhiếu trường hợp, 
nhà nghiên cứu có thể so sánh độ nhạy trong cùng một nhóm, và số bệnh cần 











thiết là: 
A+z,JA)=€(3+A)/4 
2À+Z, 
[— Tụ xe 
trong đó, | 








A =(I=5&,).$e; +(I— §,) S6, 
=(I~84,)S#, ~(I—.Se,)5#, 

Ví dụ 8: Nhà nghiên cứu muốn đánh giá độ nhạy của một xét nghiệm 
mới trong việc chấn đoán rối loạn cường dương. Biết rằng trong cộng đồng có 
khoảng 55% người rối loạn cường dương. Nghiên cứu trước đây cho thấy độ 
nhạy của phương pháp xét nghiệm hiện hành là 85%. Nhà nghiên cứu hi vọng 
rằng xét nghiệm mới sẽ có độ nhạy 95%, và muốn ước tính số cỡ mẫu cần thiết 
cho nghiên cứu với điểu kiện œ = 0.05 (một chiếu) và 8 = 0.20. 


Với những thông tin trên, chúng ta có z„„ = 1.645, z,„„ = 0.842. 
Dùng công thức [12], số cỡ mẫu (bệnh nhân) cấn thiết là: 


„-LU 645 ,j(0.86 1 - 0.86 ) + 0.842 vÍ(0.95(1 - s55)} _ 


(095-0.86 } 
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Nhà nghiên cứu cần tuyển 75 bệnh nhân và số không mắc bệnh (tính 
theo tỉ lệ hiện hành 55%) là 75 / 0.55 = 136. Tính chung, công trình nghiên 
cứu cần 211 cá nhân. 

Ví dụ 9: Một nghiên cứu có mục tiêu là so sánh hai độ nhạy của hai phương. 
pháp xét nghiệm để chẩn đoán bệnh viêm răng với mức độ ý nghĩa thống kê 
5% (kiểm định hai chiểu) và power 80%. Nhà nghiên cứu giả định rằng xét 
nghiệm 1 có độ nhạy là 66%, và xét nghiệm 2 có đô nhạy 27%. Số bệnh nhân 
cần thiết có thể ước tính như sau: 





k _[seW(027+o X 2-027-066 ] +osz vJ2[osz(1-027)+06{(1-os)|Ì 


=49 
( 06-027 } 





Nếu tỉ lệ viêm răng trong cộng đồng là 25%, số nhóm chứng có thể ước tính là 
49 / 0.25 = 200. Tính chung, nhà nghiên cứu cẩn tuyển mộ 49 bệnh nhân và 
200 người thuộc nhóm chứng cho công trình nghiên cứu. 

Tuy nhiên, nếu hai xét nghiệm có thể làm trên 1 nhóm đối tượng thì: 

A =( - 0.27)0.66 + (1-0.66)0.27 = 0.5736 

W | 

€ =(1 - 0.27)0.66 - (1-0.66)0.27 = 0.3900 | 

Công thức [14] sẽ cho ra kết quả cỡ mẫu cần thiết: 














k» x 0.5736 + 0.8416 vj0.5736° - 0.3900(3+0.5736)/4 IR %6 


0.5736 x 0.3900° 





hH= 


Do đó, số cỡ mẫu cần xét nghiệm là 26 / 0.25 = 92 (giả định rằng tỉ lệ viêm 
răng là 25%). 


21.2.9. Cỡ mẫu cho đường biểu diễn ROC 
(receiver operating characteristic curve) 

Lí thuyết: Đường biểu diễn ROC là một chỉ số thống kê phản ảnh mức 
độ phân biệt (discrimination) bệnh và không bệnh của một phương pháp xét 
nghiệm. Trong chẩn đoán, khi phương pháp xét nghiệm tăng độ nhạy thì độ 
đặc hiệu sẽ giảm, và ngược lại, khi độ nhạy giảm thì độ đặc hiệu tăng. ROC 
là một “thỏa hiệp” giữa độ nhạy và độ đặc hiệu, để có độ nhạy và độ đặc hiệu 
tối ưu nhất. 
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Đường ROC được vẽ với trục tung là độ nhạy, và trục hoành là tỉ lệ 
dương tính giả (FPR - false positive rate). FPR thật sự là 1 trừ cho độ đặc 
hiệu. Diện tích dưới đường ROC được gọi là area under the curve (AUC). 
Mục tiêu của nghiên cứu chẩn đoán thường là (a) ước tính AUC, hoặc (b) 
so sánh các phương pháp xét nghiệm là so sánh AUC sao cho có ý nghĩa 
thống kê. 

Đối với nghiên cứu có mục tiêu ước tính AUC trong một khoảng tin cậy 
w, công thức ước tính số bệnh nhân cần thiết là (3-4): 


5) 
ñụ„ =Á| Z.iaX—- 
w 
e Ì I 542 4°. 
2j~ § 8 


Á =4 sp —ZI.rp 


Trong đó: 





ơ= 





Chú ý: FPR = 1 - độ đặc hiệu, và TPR = độ nhạy. 

Ví dụ 10: Nhà nghiên cứu muốn ước tính số cỡ mẫu cẩn thiết để đánh giá 
độ chính xác của MRI trong việc chẩn đoán viêm khớp xương. Khoảng 40%. 
cá nhân có viêm khớp xương. Qua y văn, nhà nghiên cứu biết rằng độ nhạy. 
là 45% và độ đặc hiệu là 90%, và khoảng tin cậy của AUC w = 10% (tức 0.1). 

Với các thông tin trên, chúng ta có thể tính: R = 0.6 / 0.4 = 1.5, FPR = 0.1, 
'TPR =0.45. Do đó,z„,= 1.2816, và z, „„ = 0.1257, A = 1.2816 - 0.1257 = 1.1559, 
ơ =0.3265 (các bạn có thể kiểm tra). Từ đó, số cỡ mẫu cần thiết là: 


2 
tụ - Ì 96 =164 


Số đối tượng nhóm chứng là 164 x 1.5 = 246. Tính chung, nhà nghiên cứu 
cẩn 164 + 246 = 410 đối tượng. 








21.3 Vài nhận xét 

Trong nghiên cứu khoa học, đặc biệt là những công trình nghiên cứu liên 
quan đến con người và động vật, việc xác định cỡ mẫu là một bước cực kì quan 
trọng. Quan trọng vì số lượng đối tượng nghiên cứu quyết định ngân sách và 
qui mô của nghiên cứu. Ngoài ra, đứng trên quan điểm y đức, số lượng đối 
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tượng cũng liên quan đến đạo đức khoa học. Một nghiên cứu có quá ít đối 
tượng sẽ không có khả năng kiểm định giả thuyết và kết quả chẳng có ý nghĩa 
gì, và nghiên cứu đó được xem là ví phạm đạo đức. Ngược lại, một nghiên cứu 
có quá nhiều đối tượng hơn số cần thiết cũng là một vi phạm đạo đức, vì gây 
bất tiện không cần thiết cho những người tham gia. Đối với các nghiên cứu về 
thuốc, xác định cỡ mẫu còn có ý nghĩa pháp lí trong việc đăng kí thuốc. Hội 
nghị ICH (International Conference on Harmonization) (5) có qui định rằng 
các công ti được muốn đăng kí dược phẩm phải đệ trình đấy đủ hồ sơ và dữ 
liệu, trong đó phải có phần phương pháp ước tính cỡ mẫu. Do đó, tuy là bước 
đấu trong nghiên cứu, nhưng việc xác định cỡ mẫu là một bước trung tâm 
trong thiết kế nghiên cứu. 

Xác định cỡ mẫu là một khoa học, nhưng cũng có thể xem là một nghệ 
thuật. Tính khoa học của ước tính cỡ mẫu là cơ sở lí thuyết xác suất và giả định 
đẳng sau mỗi công thức tính. Chính vì cơ sở khoa học này mà các phép tính 
phải mang tính tái thiết lập (repeatability). Nếu phương pháp tính toán được mô. 
tả đẩy đủ và minh bạch, người khác có thể đi đến cùng kết quả, và điểu đó rất 
quan trọng trong tính minh bạch. Tuy nhiên, trong thực tế thì không hẳn như 
thế. Trong một thẩm định và phân tích 446 để cương nghiên cứu đệ trình cho uỷ: 
ban y đức ở Anh, các nhà nghiên cứu phát hiện chỉ có 134 (30%) để cương mô 
tả cách tính đầy đủ và người khác có thể lặp lại kết quả tính toán, 70% còn lại thì 
kết quả không tái lập được (6). Đó là một kết quả bất ngờ và đáng quan tâm vì 
đây là những công trình nghiên cứu có liên quan đến con người. 

Tính nghệ thuật trong việc xác định cỡ mẫu là cách chọn mức độ ảnh 
hưởng cho tính toán. Trong rất nhiều trường hợp, nhà nghiên cứu không biết 
được mức độ ảnh hưởng là bao nhiêu, không biết được độ nhạy hay độ chính 
xác của một xét nghiệm. Nhưng những thông số này lại rất cấn cho việc tính. 
toán cỡ mẫu! Do đó, nhà nghiên cứu phải vân dụng suy nghĩ để tìm một thông 
số cho tính toán. Một nghiên cứu phải cho ra kết quả có ích, do đó, thông số 
đó phải có ý nghĩa thực tế hay ý nghĩa lâm sàng. Cần phải phân biệt ý nghĩa 
thống kê và ý nghĩa lâm sàng. Khi một nghiên cứu có cỡ mẫu lớn, bất cứ một 
khác biệt nhỏ nào cũng có thể có ý nghĩa thống kê (P < 0.05), nhưng không 
có ý nghĩa lâm sàng. Ngược lại, một kết quả có thể có ý nghĩa lâm sàng nhưng 
không có ý nghĩa thống kê khi cỡ mẫu quá nhỏ. Do đó, nghệ thuật ở đây là 
phải chọn một thông số về ảnh hưởng vừa có ý nghĩa thống kê và có ý nghĩa 
lâm sàng. Như là một hướng dẫn chung, nếu mức độ ảnh hưởng (ES) khoảng 
0.1-0.3 là “nhở; 0.3-0.5 là “trung bình? và >0.5 được xem là “lớn” (7). Việc 
chọn mức độ ảnh hưởng cho tính toán cỡ mẫu đòi hỏi nhà nghiên cứu phải 
suy nghĩ về vấn đề mình quan tâm và phù hợp với tình hình thực tế. 
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Tính toán cỡ mẫu phải được thực hiện trước khi triển khai nghiên cứu. 
Trong thực tế, có tình huống xảy ra khi kết quả nghiên cứu không có ý nghĩa 
thống kê, nhà nghiên cứu bèn tính toán power và số cỡ mẫu cần thiết để phát 
hiện mức độ ảnh hưởng quan sát. Cách làm như thế có khi được gọi là posf- 
hoc analysis oƒpower. Nhưng ước tính cỡ mẫu và tính toán power sau khi công 
trình nghiên cứu đã hoàn tất hay sau khi xem qua kết quả hoàn toàn không 
có giá trị khoa học và phi logic (8-9). Cần nhớ rằng power là xác suất mà một 
kiểm định thống kê bác bỏ giả thuyết vô hiệu khi giả thuyết vô hiệu sai; do đó, 
power chỉ có ý nghĩa khi giả thuyết vô hiệu sai. Nhưng vấn để là một kết quả 
không có ý nghĩa thống kê không nói cho chúng ta biết giả thuyết vô hiệu là 
đúng hay sai. Do đó, tính cỡ mẫu và power sau khi đã quan sát kết quả là hàm 
Ý giả định rằng giả thuyết vô hiệu sai nhưng lại không phù hợp với dữ liệu thực 
tế. Cần phải tuyệt đối tránh tính toán cỡ mẫu và power sau khi quan sát một 
kết quả không có ý nghĩa thống kẻ. Khoảng tin cậy 95% cung cấp cho chúng 
ta nhiều thông tin hơn là một phân tích hậu định về power. 


Một số nhà nghiên cứu (đặc biệt là ở Việt Nam) có thói quen tính toán cỡ. 
mẫu sao cho ăn khớp với số đối tượng họ có thể tiếp cận được hay đã có sẵn. 
Chẳng hạn như nhà nghiên cứu đã có 30 bệnh nhân, và họ cố gắng điểu chỉnh 
các thông số trong công thức ước tính cỡ mẫu sao cho kết quả là 30. Việc làm 
này dẫn đến nhiếu kết quả vô lí, chẳng hạn như sai số mẫu gần bằng với tham số 
chính như tỉ lệ hiện hành! Đây là một thói quen, nếu không muốn nói là một sự. 
“lươn lẹo” và phản khoa học không thể chấp nhận trong văn hoá khoa học. Như 
đã để cập ở trên, việc ước tính cỡ mẫu phải được thực hiện trước khi triển khai 
nghiên cứu và phải được tiến hành một cách có đầu tư suy nghí và nghiêm chỉnh. 

Xin nhấn mạnh một lần nữa là phương pháp ước tính cỡ mẫu phụ thuộc 
vào mô hình nghiên cứu, biến kết quả, sai sót trong kiểm định giả thuyết, và 
mức độ ảnh hưởng. Mỗi mô hình nghiên cứu với mỗi loại biến kết quả có. 
một công thức ước tính cỡ mẫu đặc thù. Chẳng hạn như không thể dùng công 
thức [1] để ước tính cỡ mẫu cho nghiên cứu so sánh một biến liên tục giữa hai 
nhóm nghiên cứu. Tuy nhiên, trong thực tế ở Việt Nam, rất nhiều nhà nghiên 
cứu tính toán cỡ mẫu chỉ dựa vào công thức [1] cho hầu hết các mô hình 
nghiên cứu! Việc áp dụng công thức tính toán một cách tuỳ tiện như thế là 
một sai lầm rất căn bản và khó chấp nhận được. Sai lầm này có khi nguy hiểm, 
vì cho ra kết quả sai, làm ảnh hưởng đến chất lượng nghiên cứu. 

Như có thể thấy qua các trường hợp vừa trình bày, phương pháp ước tính 
cỡ mẫu dựa trên một giả định rất đơn giản: cái gì nhỏ thì rất khó tìm (cẩn nhiều 
cỡ mẫu), và cái gì lớn thì đẻ tìm (cần ít cỡ mẫu). Gắn kết với cỡ mẫu là khái niệm. 
power (mà có nhiều người dịch là lực nghiên cứu, nhưng trong thực tế là độ nhạy 
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của nghiên cứu). Độ nhạy của nghiên cứu là xác suất bác bỏ giả thuyết vô hiệu 
khi giả thuyết vô hiệu sai. Cỡ mẫu càng cao, độ nhạy càng cao; cỡ mẫu càng thấp, 
độ nhạy cũng giảm theo. Trong thực tế, có tình trạng thiếu nhất quán giữa công 
thức ước tính cỡ mẫu trong để cương nghiên cứu và trong báo cáo khoa học. Một 
phân tích mới công bố trên BMJ (6) cho thấy chỉ có 11 trong số 62 nghiên cứu 
mà mô tả về cách tính cỡ mẫu nhất quán giữa để cương và bài báo! Sự thiếu nhất 
quán như thế dẫn đến khó khăn trong diễn giải kết quả. Do đó, những thông số 
được sử dụng trong ước tính cỡ mẫu cần phải được mô tả cẩn thận và rõ ràng, vì 
những thông tin này rất có ích cho việc đánh giá tính khả tín của kết quả nghiên 
cứu. Những ví dụ trong bài này chủ yếu liên quan đến nghiên cứu y khoa (vốn đa 
đạng), nhưng cũng áp dụng cho các nghiên cứu xã hội học. Hi vọng rằng những 
chỉ dẫn trên đây sẽ giúp cho các nhà nghiên cứu hiểu hơn về ý tưởng và ý nghĩa 
của việc ước tính cỡ mẫu cho một công trình nghiên cứu khoa học. _ 
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Phân tích số liệu dãy thời gian 
(Time Series Analysis) 








mang tính thời gian và chu kì. Chẳng hạn như tỉ lệ tử vong theo. 

năm, tỉ giá đồng USD được ghi chép từng ngày qua nhiều năm, 
nhịp tìm của bệnh nhân được máy ghi nhận theo từng phút trong một ngày. 
Trong thuật ngữ tiếng Anh, những dữ liệu này được để cập đến như là “time 
series đata” - dữ liệu theo thời gian. Những dữ liệu theo thời gian có đặc điểm 
là chủng biến chuyển theo chu kì và có xu hướng. Nói cách khác, “phía dưới” 
những biến chuyển của dữ liệu theo thời gian là một số yếu tố mà phân tích 
thống kê cẩn phải phát hiện. 


Phương pháp dữ liệu theo thời gian bao gồm các phương pháp “chiết 
xuất” các chỉ số thống kê phản ảnh những đặc điểm của dữ liệu. Một hướng 
phân tích khác là xây dựng mô hình tiên lượng dữ liệu tương lai dựa vào 
những dữ liệu đã quan sát trong quá khứ. Dĩ nhiên, các mô hình hồi qui 
tuyến tính cũng có thể sử dụng cho tiên lượng, nhưng các mô hình như thế 
có vài vấn để về giả định và khó ứng dụng cho đữ liệu theo thời gian. Ngoài 
một số package chuyên dụng như TSA, tseries, và timeSeries, trong R. 
đã có sắn một số hàm cơ bản để phân tích các dữ liệu theo thời gian. Trong 
chương này, tôi sẽ giới thiệu phương pháp đơn giản và một số hàm cơ bản 
cho phân tích dữ liệu. Các phương pháp đó bao gồm phân tích mô tả xu 
hướng và chu kì (hay mùa), và các mô hình Moving Average, Autoregressive, 
và ARIMA. 


M: trong những dữ liệu phố biến trong kinh tế và y khoa là đữ liệu 
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22.1 Dữ liệu và nhập dữ liệu | 

Việc cần làm đầu tiên trong phân th lữ liệu theo thời gian là nhập dữ 
liệu theo đúng thời gian. Trong chương này, chúng ta sẽ làm quen với 3 dữ liệu 
theo thời gian. ] 

Ví dụ 1: Tuổi tử vong của vua Anh Quốc. Số liệu dưới đây phản ảnh tuổi 
tử vong của 42 vị vua của Anh Quốc. Trong trường hợp này, dữ liệu không hẳn 
mang tính thời gian, vì khoảng cách giữa các năm tử vong của vua không bằng 
nhau. Thông thường, dữ liệu chỉ là một dây số liêu như sau: 

60 43 67 50 56 42 50 65 68 43 65 34 47 34 49 41 13 35 53 56 16 

43 69 59 48 59 86 55 68 51 33 49 É7 77 81 67 71 81 68 T0 77 56 

Ví dụ2: Bán hàng lưu niệm. Số liệu thu thập về lượng hàng lưu niêm bán 
cho du khách ở một vùng du lịch thuộc bang Queensland (Úc) từ 1/1987 đến 
12/1993: 


1664.81 2397.53 2840.71 35417.29 3752.96 
3714.74 4349.61 3566.34 5021.82 6423.48 
7600.60 19756.21 2499.81 5198.24 7225.14 
4806.03 5900.88 4951.34 


Đây là dữ liệu theo thời gian vì có tháng và năm. Chúng ta có thể “đọc” dữ 
liệu vào R với hàm scan như sau: 


Souv = scan ("~/Documents/_Vietnam14/R Book (Revised)/ 
Data/souvenirs.txt ") 


Nhưng dữ liệu sotzv chưa thể phân tích được vì chỉ là một vector số mà 
không có yếu tố tháng và năm. Để thêm yếu tố tháng và năm, chúng ta cần 
dùng đến hàm + s như sau: 


ts.souv = ts(souv, frequency=l2, start=c(198?, 1)) 


Bây giờ dữ liệu +s. souv đã có một hình thức mới và có thể sử dụng cho. 
phân tích: 


> tø,souv. 

đan| Fe Mar| 
1987 1664.81 2397.53  |2840.71 
1988 2499.81 5198.24 | 7225.14 
1989 4717.02 B?702.63 | 9957.58 
1990 B5921.10 5814.581 12421.25 


L Apr | May Jun 
547.2 752.96. 3714.74 
pIÒN 5900.88. 4951.34 
304.78 6432.43 6630..80 


369.17 609.121 7224.75 
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1992 7615.03 |9849.69 14558.4 
1993 10243.24 lI11266.88 21826.8 


1587.3. 9332.56 13082.09 


19891 |4826.64 _ na 
1351.3. 5997.79 18601.53 





ngài _ 10209.48 


Ví dụ 3: Số trẻ em mới sinh ở New York. Dữ liệu dưới đây là số trẻ em. 
mới sinh mỗi tháng ở Thành phố New York từ 1/1946 đến 12/1959 cũng là 
một đữ liệu theo thời gian: 

26.663 23.598 26.931 24.740 25.806 
23.227 21.672 21.870 21.439 21.089 
23.479 23.824 23.105 23.110 21.759 
21.672 22.222 22.123 23.950 23.504 
21.548 20.000 22.424 20.615 21.761 
22.907 21.519 22.025 22.604 20.894 


4.364 24.411 23.901 23.115 
3.709 21.669 21.752 20.761 
2.073 21.937 20.035 23.590 
2.238 23.142 21.059 21.573 
2.874 24.104 23.748 23.262 
17 
















Mặc dù dữ liệu không có cột tháng và năm, nhưng chúng ta có thể dùng 
hàm R để tạo ra một dữ liệu R (data frame) cho phân tích. Trước hết, đọc dữ 
liệu vào đối tượng bi rths. 


births = scan("~/Documents/ Vietnam14/R Book (Revised) / 
Data/births.txt") 


Sau đó, sắp xếp dữ liệu theo từng tháng, bắt đầu từ 1/1946 đến 12/1959, 
bằng cách dùng hàm ts trong R, và cho kết quả vào đối tượng ts.births: 


ts.births = ts(births, frequency=l2, start=c(1946, 1)) 


“Trong hàm trên, chú ý lệnh £requeney=12 (một năm có 12 tháng) và 
start=c (1946, 1) tức bắt đầu từ tháng 1 năm 1946. Kiểm tra kết quả cho 
thấy R đã sắp xếp dữ liệu theo tháng năm: 


> ts.births : 
Jan Feb Mar ApE May Jun JuL Aug Sep 

1946 26.663 23.598 26.931 24.740 25.806 24.364 24.477 23.901 23.175 
1947 21.439 21.089 23.709 21.669 21.752 20.761 23.479 23.824 23.105 
1948 21.937 20.035 23.590 21.672 22.222 22.123 23.950 23.504 22.238 
1949 21.548 20.000 22.424 20.615 21.761 22.874 24.104 23.748 23.262 
1950 22.604 20.894 24.677 23.673 25.320 23.583 24.671 24.454 24.122 
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22.2 Biểu đồ 
Sau khi dữ liệu đã được sắp xếp và nhập thích hợp cho phân tích, bước đầu. 
tiên là xem xét dữ liệu bằng một biểu đồ. Hàm p1ot.. ts có thể giúp cho phân 
tích này. Nên nhớ đối tượng của p1ot. ts là dữ liệu đã được hàm ts nhập: 
Plot.ts (Es.births) 





30 


28 


tsbirths 


2 











J946 1948 1950 1952 1954 1956 1958 1960 


Time 


Biểu đồ số trẻ mới sinh mỗi tháng ở New York từ 1/1946 đến 12/1959. 


Có thể thấy từ biểu đồ này một chu kì mang tính mùa và xu hướng năm. 
"Trong mỗi năm số trẻ mới sinh thường cao nhất vào mùa hè và giảm thấp nhất 
vào mùa đông. Nhưng đồng thời xu hướng chung là tính từ 1950 thì số trẻ mới 
sinh tăng theo năm. 


Đối với dữ liệu về tuổi tử vong của các vua Anh Quốc, chúng ta có biểu 
đồ dưới đây: 

kings = scan("~/Documents/_Vietnaml4/R Book (Revised)/ 

Data/kings. txt ") 


ts.kings = ts(kings) 
plot..ts (Es. kings) 
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80 


60 


kings 


20 











Biểu đồ mô tả tuổi tử vong của 42 vua Anh Quốc 


Biểu đồ trên cho thấy, không có một chu kì rõ ràng, tuy nhiên có xu hướng. 
Sự biến chuyển của dữ liệu có thể mô tả bằng một mô hình cộng hưởng (additive 
model), vì độ dao động ngẫu nhiên có vẻ bất biến (độc lập) với thời gian. 

Nhưng biểu đổ mô tả biến chuyển về lượng hàng lưu niệm bán ra thì có 
xu hướng và chu kì rõ ràng: 

ts.souv = ts(souv, frequency=l2, start=c(1987, 1)) 

Plot.s (Es. souv) 





tss0uV 
1et05 


4e+04 6e+04  8et04 
+ 


2et04 
h 








4 





0e400 


1987 1988 1989 1990 1991 1992 1993 1994 
Time 


Biểu đồ mô tả lượng hàng lưu niệm bán ra từ 1/1987 đến 12/1993. 
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Biểu đồ cho thấy mô hình cộng hưởng có vẻ không thích hợp để mô tả đữ liệu 
này, vì có bằng chứng cho thấy có chu kì trong dữ liệu. Có lẽ chúng ta cần hoán. 
chuyển dữ liệu sang đơn vị log để xem mô hình cộng hưởng có thể dùng để mô tả: 

ts.souv = ts(souv, freguency=l2, start=c(1987, 1)) 

IE..E8 (E8. Souv) 

logsouv = log(ts.souv) 

plot..Es (1ogsouv) 





li: 


1111 Jl 
lj \/ |2 Tụ ụ | 
.4 Tạ | 


| 


J987 1988 1989 1990 1991 1992 1993 1994 
Time 


Biểu đồ mô tả lượng hàng lưu niệm (đơn vị log) bán ra từ 1/1987 đến 12/1993. 


Biểu đồ trên cho thấy mức đô dao đông theo chu kì có vẻ độc lập với thời 
gian. Do đó, có lẽ chúng ta sẽ dùng đơn vị log cho các phân tích kế tiếp. 











22.3 Phân tích các thành phần trong dữ liệu theo thời gian 


Dãy số liệu theo thời gian có 3 thành phần (components) chính theo thuật 
ngữ tiếng Anh như sau: frend, seasonal, và cyclic. Ba thành phấn này có thể giải 
thích như sau: 


'Trend (xu hướng lâu đài) 

Xu hướng là chiếu hướng biến đổi, tăng hay giảm, trong dữ liệu. Xu hướng 
không nhất thiết phải là tuyến tính. 

Seasonal (theo mùa) 

Biến đổi theo mùa xảy ra khi dãy số liệu chịu ảnh hưởng bởi các yếu tố 
mùa (như quí trong năm, tháng, hay ngày trong tuần). Biến đổi theo mùa lúc 
nào cũng xảy ra trong một quãng thời gian nhất định. 

—=. 
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Cyclic (chu kì) 

Biến đổi theo chu kì tồn tại khi dữ liệu thể hiện những biến chuyển (tăng 
và giảm) mà không theo một thời gian cố định. Nhiều đữ liệu theo thời gian dao 
động tăng giảm trong thời gian tối thiểu là 2 năm. 

Nhiều người nhầm lẫn giữa biến chuyển cyclic và seasonal, nhưng thật 
ra sự phân biệt không quá khó khăn. Nếu dao động không xảy ra trong một 
thời gian cố định, đó là biến chuyển cyclic; nếu thời gian cố định (như tuần, 
tháng, quí) biến chuyển là seasonal. Nói chung, thời gian của biến chuyển 
cyclic thường dài hơn thời gian của biến chuyển seasonal. Ngoài ra, mức độ 
của biến chuyển cyclic cũng thường cao hơn biến chuyển seasonal. 
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Bốn loại dữ liêu theo thời gian 


Biểu đổ phía trái dòng 1 cho thấy biến đổi theo mùa trong mỗi năm, nhưng 
cũng có biến đổi cyclic trong thời gian 6-10 năm. Tuy nhiên dữ liệu không biểu 
hiên xu hướng lâu dài. Biểu đổ bên phải dòng 1 không biểu hiện biến chuyển 
theo mùa, nhưng xu hướng giảm thì rất rõ ràng. Biểu đồ phía trái dòng 2 biểu 
hiện xu hướng tăng rất rõ ràng, với thành phần seasonal cũng rất rõ ràng. Tuy 
nhiên, không có biểu hiện cyclic. Biểu đổ bên phải dòng 2 không có xu hướng 
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lâu dài, không có yếu tố seasonal, và cũng không có biến đổi cyclic. Tất cả có vẻ 
chỉ là ngẫu nhiên, rất khó tiên lượng. 

Cần phân biệt 2 loại dữ liệu theo thời gian: loại không có yếu tố seasonal 
và loại có yếu tố seasonal. 


22.3.1 Đối với dữ liệu không có seasonal 

Đối với dữ liệu không có season (như tuổi thọ của vua Anh Quốc) dữ liệu. 
chỉ có 2 phần: phần hệ thống (regular component) và phần phi hệ thống hay 
ngẫu nhiên (irregular component). Gọi dãy dữ liệu là Y, để tách hai phần nảy, 
chúng ta cần phải ước tính phần xu hướng (T,), và phần còn lại là E; 


Y,=T,+E, 


Để ước tính 7 của dữ liệu không có season, chúng ta có thể dùng một 
phương pháp mượt hoá (gọi là smoothing method). Một trong những phương 
pháp mượt hoá phổ biến là sửmple moving average (SMA), tôi tạm dịch là 
trung bình động đơn giản. 

_Trung bình động là một số trung bình của một tập hợp số liệu được tính 
toán tích luỹ theo thời gian và trong một khoảng thời gian nhất định. Đây là 
một chỉ số thống kê rất có ích cho việc xác định xu hướng của một dãy số liệu 
theo thời gian. Ví dụ chúng ta có một đây số liệu theo năm như sau: 


2003: 4triệu 














2004:  6triệu 
2005 Striệu - _ AMĂẶĂ. " c— 
2006:  8triệu 


2007: 9 triệu 
2008:  5triệu 
2009: 4triệu 
2010:  3triệu 
2011: 7 triệu 


Chúng ta có thể chọn tính trung bình động cho một khoảng thời gian. 
Trung bình động 3 năm có thể tính như sau: 


(4+6+5)/3=5 
cho 3 năm kế tiếp: (6 + 5 + 8)/3 = 6.3 
và 3 năm kế tiếp: (5 + 8 + 9)/3 = 7.3 
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vân vân. Tính như thế chúng ta có một dãy số mới chỉ toàn là trung 


bình động. 


Tương tự, chúng ta cũng có thể tính trung bình động cho 5 năm thay vì 3 


năm. Trung bình động 5 năm như sau: 
(4+6+5+8+9)/5=6.4 
(6+5+8+9+5)/5=6.6 
(5+8+9+5+4)/5=6.2 
































VY. 
Chúng ta có thêm 2 biến như sau: 
NĂM SỐ LIỆU. SMA=3 SMA=S5 
2003 4 
2004 6 
2005 kì 50 
2006 8 643 
2007 9 73 64 
2008 s 73 66 
2009 4 60 62 
2010 3 40 58 
2011 7 47 56 




















SMA=3 là trung bình động tính trên 3 năm; 
SMA=S5 là trung bình động tính cho 5 năm. 


Như có thể xem qua bảng số liệu trên, trung bình động với thời gian càng 
rộng thì xu hướng càng ổn định, xu hướng càng “mượt mà” Tuy nhiên, trung 
bình động với thông số zr quãng thời gian càng cao thì phải “hi sinh” tham số 


và bậc tự do trong tính toán. 


Trong R, để tính SMA, chúng ta có thể dùng hàm SMA () trong package 
TTR. Hàm TTR đòi hỏi phải có tham số về order (hay span) với ú. Chẳng hạn 


như nếu chúng ta muốn tính SMA 5 năm thì ø¡ = 5. 


kings = scan ("~/Documents/Data/kings.txt ") 


ts.kings = ts (kings) 


1ibrary (TTR) 


# tính trung bình cộng cho 5 năm 


king.ma = SMA(ts.kings, n=5) 
# vẽ biểu đổ trung bình cộng 
plot..s (king.ma) 
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Biểu đồ tuổi thọ của vua Anh Quốc với SMA = 5 
Biểu đổ trên cho thấy vẫn còn khá nhiều độ dao động ngẫu nhiên với 
SMA=5. Để ước tính T chính xác hơn, chúng ta có thể tăng hệ số SMA lên 8: 
king.ma8 = SMA(ts.kings, n=8) 
plot.ts (king.ma8) 
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Biểu đồ tuổi thọ của vua Anh Quốc với SMA = 8 
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Biểu đồ trên cho thấy với SMA=8, chúng ta có một bức tranh rõ nét hơn 
về xu hướng. Chúng ta thấy rằng tuổi thọ của vua Anh có vẻ giảm từ 55 tuổi 
đến 38 tuổi trong 20 vị vua đấu, và tăng sau đó đến 73 tuổi (vị vua thứ 40). 


22.3.2 Đối với dữ liệu có yếu tố seasonal 


Như để cập trên, các dữ liệu có yếu tố seasonal, chúng ta sẽ phân tích theo 
mô hình Y, = S, + T, + E,. Chúng ta có thể dùng hàm decompose () có sẵn 
trong R cho phân tích. Quay lại ví dụ về số trẻ em mới sinh, chúng ta phân tích 
như sau: 

births = scan("“.../births.txt"”] 

ts.births = ts(births, frequency=l2, start=c(1946, 1]} 


comp = deconpose(ts.births) 


Hàm decompose () sẽ cung cấp cho chúng ta biết 3 thành phần trong 
đữ liệu như sau: 


Phần liên quan đến seasonal (trích kết quả tiêu biểu): 


$seasonal 








đan Feb Mar nprF May 
1946 -0.6771947 -2.0829607 0.8625232 -0.8016787 0.2516514 
1947 -0.6771947 -2.0829607 0.8625232 -0.8016787 0.2516514 
đun đul Aug Sep Oct 
1946 -0.1532556 1.4560457 1.1645938 0.6916162 0.7752444 
1947 -0.1532556 1.4560457 1.1645938 0.6916162 0.7752444 
Nov Dec 
1946 -1.1097652 ~0.3768197 
1947 ~1.1097652 ~0.3768197 


Chú ý trong phần seasonal, yếu tố seasonal cao nhất là tháng 7 (1.46) và 
thấp nhất là tháng 2 (-2.08). Các kết quả này cho thấy tháng có nhiều trẻ sinh 
nhất là tháng 7 và thấp nhất là tháng 2. 


Phần liên quan đến trend cho từng năm và tháng: 
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§trend 


1946 
1947 
1948 
1949 
1950 
1951 
1952 
1953 
1954 
1955 
1956 
1957 
1958 


Jan 

NA 
22.35350 
22.43038 
22.06375 
23.21663 
24.00083 
24.27204 
24.718646 
25.92446 
25.64612 
21.21104 
27.44221 
271.68642 


NA 
22.30871 
22.43667 
22.08033 
23.26967 
24.12350 
24.27300 
24.84992 
25.92317 
25.78679 
27.,21900 
27.40283 
271.7606T 


Mar 

NA 
22.30258 
22.38721 
22.13317 
23.33492 
24.20917 
24.28942 
24.92692 
25.92967 
25.93192 
21.20700 
21.44300 
21.5963 

7 


Apr 

NA 
22.29419 
22.35242 
22.16604 
23.42619 
24.28208 
24.30129 
25.02362 
25.92137 
26.06388 
21.26925 
21.45117 
21.71037 

1.11 


May 

NA 
22.29354 
22.32458 
22.11542 
23.50638 
24.35450 
24.31325 
25.16308 
25.89567 
26.16329 
21.35050 
21.44429 
21.6583 

xi 





1946 
1947 
1948 
1949 
1950 
1951 
1952 
1953 
1954 
1955 
1956 
1957 
1958 
1959 


ug 
23.66213 
22.31167 
22.21988 
22.35750 
23.75713 
24.48379 
24.4415 
25.34125 
25.98246 
26.40496 
21.44150 
27.56933 
21.46183 

NA 


Sep 
23.42333 
22.26219 
22.16983 
22.48862 
23.86354 
24.43879 
24.49325 
25.42119 
26.01054 
26.45379 
21.45229 
27.6316? 
27.42262 

NA 


set 
23.16112 
22.25796 
22.07721 
22.70992 
23.89533 
24.36829 
24.58517 
25.57588 
25.88617 
26.64933 
21.43354 
21.67804 
27.34175 
NA 


Nov 
22.86425 
22.2176T 
22.01396 
22.98563 
23.87342 
24.29192 
24.10429 
25.73904 
25.67087 
26.95183 
21.44488 
27.62519 
27.25129 

NA 


Dee| 
22.54521 
22.35400| 
22.02604 
23.16346 
23.88150| 
24.2642 
24.6017) 
25.87513/ 
25.57312 
27.146831 
21.46996 
21.61212 
27.08558| 





NAI 


Jun 

NA 
22.30562 
22.27458 
22.21342 
23.57017 


24.43242 24 


24.35175 
25.26963 
25.89458 
26.25388 
27.37983 
21.48975 
27.58125 


đu 
23.98433 
22.33483 
22.23154 
22.27625 
23.63888, 
„49496 
24.40558 
25.30154 
25.92963 
26.35471 
27.39975 
21.54354 
27.49075, 
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và sau cùng là phẩn ngẫu nhiên (chỉ liệt kê vài kết quả) 


§random 
Jan Feb Mar 
1946 NA NA NA 


1947 -0.237305288 0.863252404 0.543893429 


° 


1948 0.183819712 -0.318705929 0.340268429 


° 


1949 0.1 





1444712 0.002627404 ~0.571689904 -0. 
1950 0.064569712 -0.292705929 0.479560096 


Apr 
NA 


175887019 


„121262019 


749362981 


„047887019. 


May 
NA 
~0.793193108 
~0.354234776 
~0.666068109 
1.561973558 


Thay vì nhìn con số, chúng ta có thể vẽ biểu đồ các kết quả trên qua hàm. 


plot như sau: 
comp = decompose (ts.births) 
plot (comp) 


Decompositlon of additive time series 





observed 





trend 





seasonal 


random 
W5 5 05 1530 10 00 10/222324353637 30 23 34 36 38 30 








Biểu đồ trên phân tích phần “observed” thành 3 phần: trend, seasonal, và 
random. Chúng ta thấy số trẻ em mới sinh giảm trong năm 1947 và sau đó thì 
tăng hàng năm, nhưng trong mỗi năm số trẻ em mới sinh biến đổi theo mùa. 


Còn phần ngẫu nhiên thì có vẻ độc lập với thời gian. 
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Điều chỉnh cho ảnh hưởng của season 

Một cách để “hiểu” xu hướng biến đổi là hiệu chỉnh cho yếu tố seasonal. 
Trong mô hình cộng hưởng, cách hiệu chỉnh đơn giản nhất là lấy hiệu số giữa 
giá trị quan sát và các tham số của yếu tố seasonal: 

adj.births = ts.births-comp$seasonaL 


plot (adj.births) 
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Trong biểu đồ trên, phấn ảnh hưởng của mùa đã được loại bỏ, và phần 
còn lại chỉ phản ảnh xu hướng - trend và phần ngẫu nhiên. 


22.4 Tiên lượng bằng các phương pháp Exponential Smoothing 

22.4.1 Phương pháp simple exponential smoothing 

Nếu đữ liệu có thể mô tả bằng một mô hình cộng hưởng và không có yếu 
tố mùa, phương pháp sửmnple exponential smoothing (SES, một số sách còn gọi 
là single exponential smoothing) là một cách tiên lượng trong một quãng thời 
gian ngắn. Để giải thích phương pháp này, tôi sẽ bắt đầu bằng những tiên 
lượng đơn giản. 

Một cách “ngây thơ” giá trị tiên lượng cho tương lai tuỳ thuộc vào giá trị 
quan sát trước đó. Gọi giá trị tương lai là Y,.. và giá trị hiện tại là Y,, phát biểu 
trên có nghĩa là: 
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Một cách ngây thơ khác là dùng trung bình trong quá khứ tính đến thời 
điểm t. 


vế 
v.-rŠy 


Nhưng phương pháp trung bình này giả định rằng tất cả các giá trị quá 
khứ có trọng số như nhau. Giả định này không hợp lí, vì đối với tiên đoán, các 
giá trị gần nhất phải có trọng số cao hơn các giá trị cũ. Do đó, phương pháp 
SES phát biểu rằng: 


Y„,=aY+a(1-a)Ÿ,+ œ(1-a)}*Y, +... 


Trong đó, œ được gọi là smoothing parameter. Do đó, mượt mà hoá 
(smoothing) được kiểm soát bằng một trọng số œ (cũng có thể xem là thông 
số) có giá trị từ 0 đến 1. Alpha bằng 0 hay gấn 0 có nghĩa là trọng số cho số liệu 
trước đó không cao trong tiên lượng giá trị kế tiếp. Để thấy ý nghĩa đó, chúng 
ta thử xem qua vài giá trị trong bảng sau: 























SIATR, [EHEEEESIEHESEEUOI 
Y, 02 
W„ 06 | 02 024 j 016 
Yy 0128 | - 0144 =. 006. 0032 
L1 0.1024 | 00864 | 00384 | 00064 
Wế, (02/08 | (04606 | (06/04* | (08/02 
Yy (02/08 | (04/06% | (06J104# | (08/02 








Để minh họa cho tiên lượng bằng phương pháp SES, tôi sẽ dùng dữ liệu 
về lượng mưa hàng năm từ 1813 đến 1912 (của Hipel và McLeod): 

# Đọc dữ liệu, bỏ dòng đâu 

rain = scan("~/Documents/Data/rainfalls.txt", skip=l) 

ts.rain = ts(rain, start=c(1813)) 

plot.ts (ts.rain) 


Để tiên lượng bằng phương pháp, chúng ta dùng hàm Hño1+Winters () 
với tham số beta=FALSE và gamma=FALSE (tham số beta và gamma 
parameters được dùng cho mục đích khác). 

forecast = HoltWinters(ts.rain, beta=F, gamma=F) 

forecast 
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Hàm HoldWinters cho kết quả alpha = 0.024 và Coefficients = 24.678. Vì 
alpha gần bằng 0, các giá trị tiên lượng dựa vào các giá trị gần nhất không có 
trọng số cao. Hàm HoldWinters cho ra kết quả tiên lượng trong một biến / đối 
tượng có tên là tted. Chúng ta có thể xem qua giá trị tiên lượng bằng bảng. 
số liệu và biểu đố: 

forecast$fitted 

plot(ts.rain); plot(forecast) 

sẽ cho ra kết quả (trích): 


> forecast$fitted 
Time Series: 
Start = 1814 
End = 1912 
Frequency = 1 

xhat level 
1814 23.56000 23.56000 
1815 23.62054 23.62054 
1816 23.57808 23.57808 
1817 23.76290 23.76290 


1910 24.57541 24.57541 
1911 24.59433 24.59433 
1912 24.59905 24.59905 














Holt.Winters filtering. 
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H 
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Biểu đố cho thấy giá trị gốc và tiên lượng (đường màu đỏ) của lượng mưa ở 
London từ năm 1814 đến 1912. Cũng như mô hình hồi qui tuyến tính, chúng ta 
cũng có thể tính toán các chỉ số phản ảnh độ chính xác như tổng bình phương 
sai số (sum of squared errors) bằng cách trích SSE từ đối tượng forecast: 

forecast$SSE 

Như để cập trên, hàm HoltWinters() chỉ tiên lượng trong khoảng thời gian 
của dữ liệu gốc. Nhưng trong thực tế, chúng ta muốn tiên lượng trong tương 
lai. Để tiên lượng giá trị tương lai, chúng ta có thể dùng hàm £forecast. 
RoltWinters () trong package chuyên dụng forecast. Chẳng hạn như 
chúng ta muốn tiên lượng lượng mưa trong 5 năm tới, chúng ta dùng hàm sau đây: 

1ibrary (forecast) 


forecast2 = 


> forecast2 


1913 
1914 
1915 
1916 
1917 


Point Forecast 
24.67819 
24.67819 
24.67819 
24.67819 
24.67819 


19, 
19. 
19. 
19, 
19. 


Lo 80 
17493 
17333 
17173 
17013 
16853 


30 


Hi 80 
-18145 
-18305 
.18465 
„18625 
„18785 


forecast.HoltWinters (forecast, 


16. 
16. 
16. 
16. 
16. 


Le 95 
26169 
25924 
25679 
25434 
25190 


h=5) 


33 


Hỉ 95 


„09470 
-09715 
.09960 
-10204 
-10449 


Hàm HoltWinters cung cấp giá trị tiên lượng và khoảng tin cậy 80%, 959%. 
Chẳng hạn như lượng mưa cho năm 1917 được dự đoán là 24.68 inches, với 
khoảng tin cậy 95% từ 16.25 đến 33.10. Một cách đễ nhìn hơn là dùng biểu đố: 


Plot.forecast (forecast2) 


3s 


+ 


20 





1820 


1860. 


Biểu đồ trên vẽ các giá trị tiên lượng bằng màu xanh, với khoảng tin cậy 
80% và 95% trong vùng màu xám. 
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22.4.2 Tiên lượng bằng phương pháp Holt Exponential Smoothing 
Một phương pháp khác có ứng dụng cho các dữ liệu không có yếu tố mùa 


là phương pháp Holt Exponential Smoothing (HES). Phương pháp HES ứng 
dụng cho tiên lượng ngắn hạn khi dữ liệu có xu hướng tăng hoặc giảm (nhưng 
không có yếu tố mùa). 


Phương pháp HES được hình thành từ 2 thông số smoothing là alpha và 


beta, có giá trị từ 0 đến 1. Alpha là trọng số của giá trị tại thời điểm hiện tại. 
Beta là độ đốc (slope) cho phần trend ngay tại thời điểm hiện tại. Một ví dụ 
ứng dụng của phương pháp HES là dữ liệu về đường kính của đường viến váy 
phụ nữ đo lường từ 1866 đến 1911. 


skirts = scan ("~/Documents/Data/skirts.txt”, skip=5) 
ts.skirts = ts(skirts, start=c(1866)) 
Plot.ts (ts.skirts) 
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Chúng ta thấy rằng đường kính váy tăng từ 1866 đến 1880 (tăng khoảng 


600), và sau đó thì giảm đến 1911 (giảm ~520). Để tiên lượng, chúng ta cần 
phải dùng hàm ño1tWinters () để phân tích đữ liệu. 


forecastl = HoltWinters(ts.skirts, gamna=F) 
forecastl 


Cho ra thông số alpha = 0.84 và beta = 1. Hai thông số này cho chúng ta 


biết giá trị hiện hành có trọng số khá cao hay rất cao trong việc tiên lượng giá 
trị tương lai. Điểu này khá nhất quán với biểu đồ dưới đây phản ảnh giá trị 
quan sát và giá trị tiên lượng rất nhất quán nhau: 





plot (forecast1) 
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'Observed / Fitted. 
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Cũng nhưphương pháp SES, với phương pháp HES, chúng ta cũng có thểtiên 
lượng cho một tương lai ngắn hạn bằng hàm £orecast..Ho1tWinters () 
package chuyên dụng £orecast. Chẳng hạn như tiền đoán cho 10 năm: 

forecastl = HoltWinters(ts.skirts, gamma=F) 

forecast2 = forecast.HoltWinters (forecastl, h=10) 

plot.£orecast (forecast2) 





Forecasts from HoltWinters 
k 
E 
§ 
§ 
ầ 











WƠ0 1880 1880 1900  IƠỢ — 1920 


Trong biểu đổ trên, đường màu xanh thể hiện giá trị tiên lượng, cùng 
khoảng tin cậy 95% và 80% (vùng màu xanh và màu xám). 
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22.4.3 Tiên lượng bằng phương pháp 
Holt-Winters Exponential Smoothing 


Nếu dữ liệu có thể mô tả bằng một mô hình cộng hưởng, nhưng có yếu tố 
mùa, phương pháp Holt-Winters Exponential Smoothing có thể dùng cho tiên 
lượng ngắn hạn. Phương pháp này dùng 3 thông số smoothing (œ, và +y ) 
để thể hiện dữ liệu. Thông số alpha là trọng số của giá trị hiện tại; thông số 
beta thể hiện độ dốc của giá trị hiện tai; và thông số gamma thể hiện mùa - 
seasonality. Dĩ nhiên, tất cả các thông số œ, Ø và y đều có giá trị giữa 0 và 1. 


Để minh họa cho phương pháp Holt-Winters Exponential Smoothing, 
chúng ta quay lại với ví dụ về lượng hàng lưu niệm bán ra từ một cửa hàng ở 
Queensland. Chú ý chúng ta dùng đơn vị log. 

Souv = scan ("~/Documents/Data/souvenirs.txt") 

t8,8ouv = ts(souv, frequency=l2, start=c(1987, 1)) 

log.souv = log(ts.souv) 

forecast1 = HoltWinters (log.souv} 

Chúng ta có hệ số œ = 0.413, Ø = 0,và y = 0.956. Giá trị của thông số 
alpha (0.41) tương đối thấp, cho thấy giá trị hiện tại phụ thuộc vào các giá trị gần. 
đây và một số giá trị trong quá khứ khá xa. Thông số beta = 0 cho thấy độ đốc 
của trend không có “cập nhật hoá” trong thời gian qua. Thông số gamma = 0.956 
rất cao, cho thấy ảnh hưởng của yếu tố mùa tại thời điểm hiện tại phụ thuộc vào 
các giá trị gần nhất. Chúng ta có thể vẽ biểu đồ để biết giá trị tiên lượng và thực 
tế rất gần nhau, chứng tỏ mô hình tiên lượng rất tốt. 


plot (forecast1) 
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Chúng ta cũng có thể tiên lượng cho tương lai 5 năm (tức 60 tháng): 
forecastl = HoltWinters (log.souv) 

forecast2 = forecast.HoltWinters(forecastl, h=60) 
Plot.forecast (forecast2) 
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Như thường lệ, hàm plÏot.forecast vẽ giá trị tiên lượng bằng màu xanh, 
kèm theo khoảng tin cậy 80% và 95% trong vùng màu xám nhạt và xám đậm. 


22.5 Mô hình ARIMA 


“Thật ra, phải nói là “các mô hình ARIMA” mới đúng, vì đó là tập hợp một 
số mô hình phân tích và tiên lượng cho dữ liệu theo thời gian. Các phương pháp. 
tôi vừa mô tả trên đây (như Simple Exponential Smoothing, Holt Exponential 
Smoothing, Holt-Winters Exponential Smoothing) là những phương pháp tiên 
lượng mà không dựa vào những giả định về mối tương quan giữa các giá trị 
liên tiếp nhau trong đây số liệu (còn gọi là awfocorrelation, có lẽ tạm dịch là 
tương quan liên hoàn). Tuy nhiên, nếu chúng ta muốn tiên lượng khoảng tin 
cây bằng các phương pháp exponential smoothing thì giả định là sai số (error) 
của các giá trị tiên lượng không liên quan nhau và tuân theo luật phân bố 
chuẩn với trung bình 0 và phương sai bất biến. 

Mặc dù các phương pháp exponential smoothing không đặt giả định về 
tương quan liên hoàn, trong một số trường hợp, giá trị tiên lượng sẽ chính 
xác hơn nếu hiệu chỉnh cho hệ số tương quan. Các mö hình “Autoregressive 
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Integrated Moving Average” hay ARIMA là những mô hình thống kê dùng để 
mô hình hoá phần ngẫu nhiên của một dây số liệu theo thời gian. Trong các 
mô hình ARIMA, hệ số tương quan liên hoàn được điểu chỉnh. 


22.5.1 Khái niệm sai phân (differencing) 

Dứ liệu ổn định và dữ liệu không ổn định 

Các mỏ hình ARIMA được ứng dụng thường xuyên cho các dãy dữ liệu 
theo thời gian ổn định (thuật ngữ tiếng Anh là sfafionary time series). Trong 
thống kê, dữ liệu theo thời gian ổn định (sẽ gọi tắt là đữ liệu ổn định) có nghĩa 
là dữ liệu mà các chỉ số thống kê như trung bình, phương sai, hệ số tương 
quan liên hoàn, v.v.. đều không thay đổi theo thời gian. 


Ngược lại, khi các chỉ số thống kê, nhất là trung bình và phương sai, có. 
xu hướng biến chuyển theo thời gian, thì chúng ta có một dữ liệu bất ổn 
định -- non-stationary time series. Với dữ liệu bất ổn định, chúng ta phải bắt 
đấu bằng cách tính sai phân (difference) dữ liệu cho đến khi nó trở thành 
ổn định. ˆ SN - - —___ 
_ Sai phân bậc 1 của một dãy số liệu theo thời gian là hiểu số của số liệu tại 
thời điểm ¿ và số liệu của một thời điểm /-1. Nếu Y, là giá trị tại thời điểm f, và 
Y,, tại thời điểm f-1, thì sai phân tại thời điểm ¿ chính là Y, - Y,„. Sai phân này 
có khi còn gọi là first dierence. 

Nếu sai phân bậc 1 của Y ổn định dữ liệu và hoàn toàn ngẫu nhiên (tức 


không có autocorrelation), thì Y còn được mô tả bằng mô hình bước đi ngẫu 
nhiên - tức random walk model. 








Nếu sai phân bậc 1 của Y ổn định nhưng không ngẫu nhiên (tức là giá 
trị tại thời điểm t có liên quan với giá trị trước) thì cần phải có một mô hình 
ARIMA để mô tả dữ liệu. 

Nếu chúng ta phải tính sai phân dữ liệu đ lấn (hay bậc sai phân bậc 
đ) để có được dữ liệu ổn định, thì chúng ta có mô hình ARIMA(, d, q); 
trong đó, đ là bậc thứ tự [order] của sai phân. Trong R, có hàm đi££ () 
với tham số differences = d có thể dùng để tính sai phân. Chẳng 
hạn như đối với dữ liệu về đường kính của váy từ 1866 đến 1911 là dữ 
liệu không ổn định vì trung bình biến chuyển theo thời gian (xem biểu đồ 
dưới đây): 
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Chúng ta có thể tính sai phân cho dữ liệu trên: 

skirts = scan ("~/Documents/Data/skirts.txt", skip=5) 
ts.skirts = ts(skirts, start=c(1866)) 

# tính sai phân 

dif.skirts = điff(ts.skirts, differences=l) 


plot.ts (đif.skirts) 
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Kết quả cho thấy dữ liệu có vẻ không ổn định vì trung bình thay đổi theo. 
thời gian. Chúng ta thử sai phân bậc 2: 

đif.skirts2 = diff(ts.skirts, differences=2) 

plot.ts (dif.skirts2) 
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Biểu đồ trên cho thấy sai phân bậc 2 đã làm cho dữ liệu ổn định (không 
có xu hướng tăng/giảm theo thời gian). Phương sai cũng có vẻ ổn định. Như 
vậy, sai phân bậc 2 (đ = 2) có vẻ thích hợp cho dữ liệu. 


Do đó, mô hình ARIMA bây giờ là ARIMA(p, 2, q). Vấn để kế tiếp là xác 
định tham số p và ạ. Quay lại ví dụ về tuổi thọ của các vị vua Anh Quốc, chúng 
ta thấy dữ liệu không phải thuộc loại ổn định. 
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Bây giờ, chúng ta tính sai phân bậc 1 cho dữ liệu: 
kings = scan("~/Documents/Data/kings.txt "j 
ts.kings = ts(kings) 

dif.kings = diff(ts.kings, difference=l) 
Plot.ts (di£. kings) 
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Biểu đồ trên cho thấy dữ liệu đã ổn định với sai phân bậc 1. Mô hình 
ARIMAG, 1, q) có lẽ thích hợp cho dữ liệu về tuổi thọ của các vị vua Anh Quốc. 
Hai ví dụ trên cho thấy khi tính sai phân, chúng ta loại bỏ phần trend của 
dữ liệu theo thời gian. Phần còn lại chính là phần ngẫu nhiên hay irregular hay 


random. Bây giờ chúng ta sẽ xem xét đến hệ số tương quan liên hoàn xem có 
thể giúp gì cho chúng ta mô hình hoá dữ liệu. 


22.5.2 Chọn mô hình ARIMA 

Mô hình ARIMA(, đ, q) có ít nhất 3 thông số. Chúng ta đã thấy cách. 
chọn/xác định thông số đ. Nhưng thông số p và 4 có thể xác định qua phân. 
tích biểu đổ tương quan liên hoàn (correlogram) và biểu đồ tương quan liên 
hoàn từng phần (partial correlogram) của dữ liệu ổn định. 

Khái niệm autocorrelation - tương quan liên hoàn có thể giải thích ngắn. 
gọn như sau. Gọi Y,, Y,, Y,,..., Y, là một dãy số liệu theo thời gian được ghi 
nhận ở thời điểm t,, t„ £,„.. Autocorrelation được định nghĩa là: 


Š -P)J(r.f) 





Nị 
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Như vậy, autocorrelation chính là một hệ số tương quan. Nhưng thay vì 
tương quan giữa 2 biến X và Y, thì autocorrelation là tương quan giữa Y. và Y, „. 
Autocorrelation bậc 1 (tức k=1) thường được sử dụng để xác định hiện tượng, 
phi ngẫu nhiên (non-randomness). Trong R có hàm ae£ () và pee£ () có thể 
dùng để tính toán hệ số autocorrelation và hệ số autocorrelation từng phần. 


Chúng ta dùng dữ liệu về tuổi thọ của các vua Anh Quốc làm ví dụ ước 
tính autocorrelation và autocorrelation từng phần, và qua đó xác định thông 
số p và q cho mô hình ARIMA. 


kings = scan ("~/Documents/Data/kings. txt ") 
ts.kings = ts (kings) 

đif.kings = diff(ts.kings, difference=l) 
acf (dif.kings, lag.max=20, plot=F) 

ac£f (di£.kings, lag.max=20) 


Chúng ta sẽ có kết quả như sau: 


> acf(dif.kings, lag.max=20, plot=F) 
Autocorrelations of series 'dif.kings', by lag 


0 1 2 3 4 5 6 7 8 
1,000 =0.360 =0.162 -0.050 0.227 -0.042 -0.181 0.095 0.064 
9 10 11 12 13 14 15 16 17 
~0.116 -0.071 0.206 -0.017 -0.212 0.130 0.114 -0.009 -0.192 
18 19 20 


0.072 0.113 -0.093 


hay thể hiện qua biểu đố correlogram: 
Series dif.kings- 
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Chúng ta thấy hệ số autocorrelation ở sai phân bậc 1 (-0.360) quá ngưỡng. 
ý nghĩa thống kê. Ngưỡng ý nghĩa thống kê là hai đường đứt đoạn màu xanh 
trong biểu đồ. Tuy nhiên, hệ số tương quan của các bậc khác thì đều 0, vì nằm 
trong vùng không có ý nghĩa thống kê. 

Tương tự, chúng ta xem xét hệ số autocorrelation từng phần bằng hàm 
pac£f(): 
pacf (dif.kings, lag.max=20, plot=F) 
pacf (dif.kings, lag.max=20) 


> pacf(dif.kings, lag.max=20, plot=F) 
Partial autoeorrelations of series *đif.kings", by lag 





1 2 3 4 5 6 7 8 9 10 
~0.360 =0.335 -0.321 0.005 0.025 =0.144 ~0.022 -0.007 ~0.143 ~0.167 
11 12 13 14 15 16 17 18 19 20 
0.065 0.034 -0.161 0.036 0.066 0.081 ~0.005 ~0.027 ~0.006 ~0.037 
Series ditkings 
" 


a1 


00 





Panial ACF 
03 02 01 











Biểu đồ và kết quả trên cho thấy hệ số autocorrelation từng phần ở bậc (lags 
hay sai phân) 1, 2 và 3 vượt qua ngưỡng ý nghĩa thống kê và âm (lag 1: -0.360, 
lag 2: -0.335, lag 3: -0.321). Tuy nhiên, hệ số này giảm dẩn và gần như bằng 0 
sau lag 3. 
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Qua phân tích autocorrelation và autocorrclation từng phần như trên, 
chúng ta có thể xác định 2 thông số p và q cho mô hình ARMA (autoregressive 
movying average) cho dữ liệu theo thời gian với sai phân bậc 1: 

« _ Mô hình ARMA(3,0), tức là mô hình autoregressive với p=3 có vẻ là 

tối ứu, vì autocorrelogram từng phần bằng 0 sau lag 3. 
« Mô hình ARMA(0,1), tức là mô hình moving average với q=l, vì 
autocorrelogram bằng 0 sau lag 1. 


Ở đây, chúng ta cần dùng nguyên lí tiết kiệm (Principle of Parsimony) để 
quyết định mô hình nào là tốt nhất. Nói cách khác, chúng ta muốn tìm mô hình 
có ít thông số nhất nhưng mô tả đữ liệu tốt nhất. Mô hình ARMA(3, 0) có 3 
thông số, mô hình ARMA(0, 1) có 1 thông số, và mô hình chung ARMA(, q) 
có ít nhất là 2 thông số. Do đó, mô hình ARMA(0,1) trong trường hợp này là 
mô hình tốt nhất. 


Mô hình Moving Average (MA model) 


Mô hình MA chủ yếu quan tâm đến white noise (Z,) chứ không phải Y,. 
Mô hình MA bậc ạ, viết tắt là MA(q), có thể phát biểu như sau: 


Y.=Z,+6/2+6,2,,+6/2,,+..+6 2. 


Trong đó, 6,, 6,, 6,.... 6, là thông số của mô hình. Mô hình này có 4 sai 
phân (lag), và Z, là white noise. 


Mô hình ARMA(0, 1) thực chất là một mô hình moving average - trung bình. 
động bậc 1. Nói cách khác, đó là mô hình MA(1). Mô hình này có thể viết như sau: 


Y,-u=Z,- (6xZ,,) 


trong đó, Y, là một dãy số liệu ổn định và chúng ta nghiên cứu sai phân 
bậc 1; ụ là trung bình Y,, Z, là yếu tố ngẫu nhiên với trung bình 0 và phương 
sai bất biến (Z, còn gọi là “white noise”); và 6 là thông số cần ước tính. 

Mô hình MA (moving average) thường được sử dụng để mô hình dữ liệu 
theo thời gian với đặc điểm là các số liệu phụ thuộc nhau trong một khoảng 
thời gian ngắn. Trong thực tế, mô hình MA có thể dùng để mô tả phần ngẫu 
nhiên của tuổi thọ của các vua, vì chúng ta kì vọng rằng tuổi thọ của một vị 
vua có thể có ảnh hưởng đến tuổi thọ của vi vua kế tiếp hay vải vị vua tiếp. 
theo, nhưng khó có thể ảnh hưởng đến các vua sau một thời gian dài. 
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Tìm thông số cho mô hình ARIMA bằng hàm auto.arima() 

Các phân tích trên đây để tìm thông số cho mô hình ARIMA(, d, q) có 
thể nói là mang tính thủ công. Trong thực tế, chúng ta có thể sử dụng hàm 
auEo.arima () trong package chuyên dụng fozecast để tìm các thông số từ 
dữ liệu gốc. Để “kiểm tra” hàm auto. axzima (), chúng ta thử mô phỏng một 
dãy dữ liệu theo thời gian với mô hình ARIMA(1, 0, 1), với thông số p = 0.3 và 
q=0.6. Mô phỏng có thể dùng hàm arima.sim có sẵn trong R: 

test.data = arima.sim(model=list (ar=0.3, ma=0.6), 

n=1000, n.start=200) 

Hàm trên mô phỏng 1000 giá trị theo mô hình AR(0.3) và MA(0.6). Lệnh. 
n.start=200 có nghĩa là giá trị mỏ phỏng chỉ lấy từ 201 trở lên để đảm bảo ổn 
định của mô phỏng. 

Bây giờ chúng ta thử dùng hàm auto. arima () để tìm mô hình tốt 
nhất: 


11BFãFy (FöFeeasE) 








auto.arima (test. data) 
Kết quả cho thấy: 

> auto.arima (test. data) 
Series: test.data 


ARIMA (1,0,1) with zero mean 


Coe£fficients: 
arl mai 
0.3641 0.5797 
s.e. 0.0377 0.0330 
Kết quả để nghị mô hình ARIMA(1, 0, 1), tức là đúng với mô hình chúng 
ta mô phỏng. Thông số là AR(0.36) gần bằng với giá trị thật 0.30, và MA(0.58) 
gần với giá trị thật là 0.60. Dĩ nhiên giá trị mô phỏng không thể nào chính xác 
với giá trị thật, nhưng kết quả của hàm auto.arima() rõ ràng là để nghị mô 
hình hợp lí. 
Bây giờ, chúng ta quay lại với đữ liệu thực tế để dùng auto.arima() tìm 
thông số cho dữ liệu về tuổi thọ của vua: 
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kings = scan ("”~/DocumentEs/Dalka/klings i txti"} 
1ibrary (forecast) 
auto. arima (kings) 
Với kết quả: 
> auto.arima (kings) 
Series: kings 
ARIMA (0,1,1) with drift 
Coefficients: 
mai drift 
-0.7463 0.3882 
s.e. 0.1294 0.6603 
Kết qua trên cho thấy mô hình thích hợp là ARIMA(0, 1, 1). Nói cách. 
khác, thông số của mô hình là p=0, =1, q=1. Mô hình này nhất quán với phân 
tích thủ công mà chúng ta đã thực hiện. 


Mô hình autoregression (AR model) 

Ý tưởng của mô hình autoregressive (AR) là giá trị quan sát hiện tại phụ 
thuộc vào các giá trị trước đó. Gọi Z, là một white noise. Nếu chúng ta mô. 
hình Z, bằng một phương trình bậc 2 như sau: 


Y,=Y,,~09Y,,+Z, 


Phương trình này phát biểu rằng giá trị của thời điểm hiện tại phụ thuộc 
vào (a) giá trị của thời điểm trước hiện nay, và (b) giá trị của thời điểm trước 
đó. Đây là mô hình autoregressive (AR). 

Ví dụ: Khẩu trang che mặt chống bụi núi lửa ở Bắc bán cẩu. Dữ liệu sau 
đây bao gồm chỉ số về khẩu trang chống bụi được đo lường từ 1500 đến 1969 
tại vùng Bắc bán cấu (dữ liệu của Hipel và Mcleod, 1994). Chúng ta đọc dữ 
liệu vào R và hoán chuyển sang dữ liệu theo thời gian với hàm ts như sau: 

vc = scan ("~/Documents/Data/vulcano.txt", skip=l) 

ts.vc = ts(vc, start=c(1500)) 


plot.ts (Cs.VC) 
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Biểu đồ trên cho thấy những dao động ngẫu nhiên của số liệu có vẻ bất 
biến theo thời gian. Do đó, một mô hình cộng hưởng có vẻ thích hợp cho việc 
mô tả dữ liệu. Ngoài ra, biểu đồ trên cũng cho thấy phương sai độc lập với thời 
gian. Do đó, chúng ta không cẩn phải tính sai phân cho dữ liệu để dùng mô 
hình ARIMA, nhưng có thể áp dụng mô hình ARIMA trực tiếp vào dữ liệu gốc 
(tức đ= 0). Chúng ta tìm các thông số bằng hàm auto..arima () như sau: 


> auto.arima (vc) 
Series: vc 
ARTMA(1,0,2) with non-zero mean 


Coefficients: 
arl ma1 ma2 intercept 
0.4723 0.2694 0.1279 57.5178 
s.e. 0.0936 0.0969 0.0752 8.4883 


Kết quả trên "để nghị” mô hình ARIMA(I, 0, 2). Mô hình có 3 thông 
số. Tuy nhiên, nếu chúng ta dùng tiêu chuẩn BIC (Bayesian Information 


Criterion) thì mô hình có lẽ đơn giản hơn: 
> auto.arima(ve, ic="bie") 
Series: ve 
ARIMA (2,0,0) with non-zero mean 


Coefficients: 
arl ar2 intercept 
0.7533 -0.1268 57.5274 
s.e. 0.0457 0.0458 8.5958 
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Với tiêu chuẩn BIC, chúng ta có mô hình ARMAÓ@, 0). Mô hình này có 2 
thông số, và so với các mô hình khác, đây là mỏ hình tối ưu. Đây là mô hình 
autoregressive bậc 2, hay AR(2). Mô hình này phát biểu rằng 

Y.=p=B,Œ,,~) +B,Œ,; - H) + Z, 

Trong đó Y, là số liệu tại thời điểm ¿, là số trung bình của dãy số liệu, B, 
và §, là thông số cần tìm, và Z, là yếu tố ngẫu nhiên (white noise) với trung 
bình 0 và phương sai bất biến. 

Model AR (autoregressive) thường được sử dụng để mô tả dãy số liệu 
theo thời gian mà sự tương quan giữa các số liệu nối tiếp nhau mang tính lâu 
dài. Mô hình này thích hợp cho những trường hợp như số liệu về bụi núi lửa 
vì chúng ta kì vọng rằng bụi núi lửa của một năm còn ảnh hưởng đến nhiều 














Nếu mô hình ARMA@, 0), tức p=2, q=0 được dùng để mô tả dữ liệu bụi 
núi lửa, thì điểu này có nghĩa là chúng ta có mô hình ARIMA(, 0, 0), tức p=2, 
d=0, và q=0. 











22.5.3 Tiên lượng dùng mõ hình ÄRIMA 

Sau khi xác định mô hình tốt nhất, bước kế tiếp là ước tính thông số và 
dùng thông số để làm một mô hình tiên lượng các số liệu tương lai. Trong R 
có hàm arima() dùng để ước tính thông số của mô hình ARIMA. 


Chúng ta dùng số liệu về tuổi lúc tử vong của các vua Anh Quốc làm ví 
dụ cho mô hình ARIMA. Nhớ rằng, chúng ta đã có mô hình “tối ứu” cho dữ 
liệu là ARIMA(0, 1, 1). Trong R, chúng ta dùng lệnh order=c(p, d, q): 

kings = scan (*~/Documents/Data/kings.txt") 

ts.kings = ts(kings) 

arimal = arima(ts.kings, order=c(0, 1, 1)) 

Với kết quả như sau: 

> arimal 

Series: ts.kings 

ARIMA (0,1,1) 


Coefficients: 
mai 
~0.7218 
s.e. 0.1208 
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sigma^2 estimated as 230.4:  log likelihood=-170.06 
AIC=344.13 AICc=344.44 BIC=347.56 
Như để cập trên, nếu chúng ta áp dụng mô hình ARIMA(0, 1, 1), thì điều 
đó cũng tương đương với áp dụng mô hình ARMA(0, 1) vào dữ liệu sai phân 
bậc 1. Mô hình ARMA(0, 1) có thể viết như sau: 
Ynu=Z,~82,, 
Trong kết quả phân tích trên, Ø = -0.7218. 


Chúng ta cũng có thể tiên lượng bằng cách dùng hàm forecast. 
Arima () trong package forecast: 


1ibrary (forecast) 

forecastl = forecast.Arima(arimal, h=5) 
£forecastl 

plot.£orecast (forecast1) 


Kết quả trình bày cho 5 năm tới với khoảng tin cậy 80% và 95%. 
> forecastl 





Point Forecast Lo 80 Hi 80 Lo 95 Hỉị 95 
43 67.75063 48.29647 87.20479 37.99806 97.50319 
44 67.75063 47.55748 87.94377 36.86788 98.63338 
45 67.75063 46.84460 88.65665 35.77762  99.72363 
46 67.75063 46.15524 89.34601 34.72333 100.77792 
47 67.75063 45.48722 90.01404 33.70168 101.79958 
Forecasts from ARIMA(0,1,1) 
8 


80 


ø0 


40 


20 








Ù 10 2 30 “0 
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Tuổi thọ của vua thứ 42 là 56 tuổi. Mô hình ARIMA tiên lượng rằng vị 
vua 43 sẽ thọ 67.8 tuổi. 

'Tiên lượng dữ liệu bụi núi lửa. Quay trở lại ví dụ về bụi núi lửa, chúng ta 
đã xác định mô hình tối ưu là ARIMA(2, 0, 0). Để ước tính thông số mô hình 
này, chúng ta dùng hàm a+ima: 

vc = scan ("~/Documents/Data/vulcano.txt", skip=l) 

ts.ve = ts(vc, start=c(1500)) 

arimal = arima(ts.vce, order=c(2,0,0)) 

arimal 

Với kết quả: 

> arimal 

Series: ts.VC 


ARIMA(2,0,0) with non-zero mean 


Coefficients: 
arl ar2 intercept 
0.7533 -0.1268 57.5274 
s.e. 0.0457 0.0458 9.5958 


sigma^2 estimated as 4870:  log likelihood=-2662.54 
AIC=5333.09 AICc=5333.17 BIC=5349.7 
Như để cập trên, mô hình ARIMA(2,0,0) cũng có thể viết là: 


Y,~=B,Œ,, =g) + B,(,=B) + Z, 


Kết quả trên cho thấy ước số của B, = 0.753 và B, = -0.127. Bây giờ, chúng, 
ta có thể tiên lượng cho 31 năm sau bằng hàm £orecast.Azima (): 

forecastl = forecast.Arima(arimal, h=31) 

forecast1l 

plot..forecast (forecast1) 


> forecastl 


Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 
1970 21.48131 -67.94860 110.9112 -115.2899 158.2526 
1971 37.66419 -74.30305 149.6314 -133.5749 208.9033 
1972 47.13261 -71.57070 165.8359 -134.4084 228.6737 
1973 52.21432 -68.35951 172.7881 -132.1874 236.6161 
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1974 
1975 
1976 
1977 
1978 
1979 
1998 
1999 


2000 


54.84241 
56.17814 
56.85128 
57.18907 
57.35822 
57.44283 


57.52739 
57.52739 


57.52739 


—66. 
-65. 
-64. 
~64. 
63. 
63. 


-63. 
-83. 


“63. 


22681 
01872 
37798 
04834 
88124 
79714 


71275 
711275 


71275 


175.9116 
177.3750 
178.0805 
178.4265 
178.5977 
178.6828 


178. 7675 
178. 7675 


178.7675 


~130.3170 
~129.1765 
-128.5529 
-~128.2276 
~128.0615 
~127.977T7 


~127.8934 
~127.8934 


~127.8934 


Forecasts from ARIMA(2,0,0) with non-zero mean. 




















§ 
° 
: + : r 
1800 600 1700  l8Ö0 1900 2000 
Forecasts from ARIMA(2,0,0) with non-zero mean. 
ga 
`. 
T T T T T 
B00 1600 1700 1800 1900 


240.0018 
241.5327 
242.2554 
242.6057 
242.7780 
242.8634 


242.9482 
242.9482 


242.9482 
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Tóm lại, qua chương này, các bạn đã làm quen với một số khái niệm và 
phương pháp cơ bản thường hay dùng trong phân tích dữ liệu theo thời gian. 
Một số phương pháp tuy nói là “cơ bản” nhưng khá phức tạp nếu mô tả bằng. 
ngôn ngữ toán. Do đó, tôi cố gắng không trình bày các công thức toán, mà 
thay vào đó là ý tưởng và cách dùng R để ước tính các thông số của mô hình 
AR, MA, và ARIMA. Tôi hi vọng rằng sau khi đọc và hiểu hết chương này, các 
bạn có thể thực hiện những phân tích đữ liệu theo thời gian và có thể diễn giải 
kết quả một cách thuyết phục. 


Chú thích 

Sách về phân tích dữ liệu theo thời gian dùng R rất phong phú. Chương 
này được mô phỏng theo và dùng đữ liệu từ cuốn “Forecasting: principles and 
practice” của R. Hyndman và G. Athanasopoulos (Otexts, 2012; Amazon.com). 
Ngoài ra, cuốn “Times Series Analysis and Its Applications (with R examples)” 
của Robert Shumway và David Stoffer (Nhà xuất bản Springer) cũng rất có ích 
và dễ hiểu. 
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HC. 


Phụ lục †1 


Hàm R dùng cho phân tích 








ối với các bạn mới làm quen với R, có lẽ vấn để nổi cộm là lúng túng, 
không nhớ hàm và lệnh. Tôi hiểu khó khăn đó. Dưới đây là một bảng 
tổng hợp các hàm cần thiết cho đọc dữ liệu, biên tập dữ liệu, phân 
tích mô tả, và mô hình thống kê. Tôi sắp xếp theo thứ tự của chương sách. Mô 
hình sắp xếp hàm là việc làm và tên hàm, một số nơi tôi cho ví dụ cụ thể. Gần 
như tất cả các hàm chính yếu trong sách đều được tóm lược trong bảng này. 
Bạn đọc có thể dùng bảng này như là một tài liệu tham khảo khi cẩn biết hàm 


R nào để phân tích dữ liệu. 








Mỗi trường vận hành 


Cho biết directory hiện hành là gì 


getwd() 









Chuyển directory vận hành về c\works 


setwd (C: /works) 








Đổi chiều rộng cửa số R thành 100 characters 
Đối số thành 3 số thập phân (thay vì kiểu 1.2E-04) 










©ptions (width=100) 


eptions (scipen=3) 











Cho biết các thông số về môi trường của R 








Liệt kẻ các đối tượng (objects) trong memory 








Tìm kiếm 


search () 





Cộng, trừ, nhân, chia, luý thừa 


+7 8/^ 





Chia số nguyên 


%⁄§ 





Số dư tử chia 2 số nguyễn 














'lpe/eulun heploerg 





Kí hiệu logic 





Bằng 








Không bằng 





Nhỏ / lớn hơn 





Nhỏ hoặc bằng, lớn hoặc bằng 





























Có phải là số missing value. 18.na (x) 
và (AND) Ũ 

hoặc (OR) I 

Không là (NOT) ' 

Ma trận 

Số đầu tiên của biến số x x1 
Năm số đầu tiên của biến số x x[1:5] 
Chọn x sao cho y nhỏ hơn hoặc bằng 30 x[y<=30] 





Chọn x sao cho sex bằng ma 1e 


x[sex== "ma Le "] 





Đọc dữ liệu 





PHÃN TÍCH / VIỆC 


HÀMR. 





Đọc dữ liệu từ file dạng csv. 


xead..cav () 





Đọc dữ liệu từ ñile dạng text/ascii 


read.table () 





Đọc / nhập số liệu dạng tab delimited. 


xead.de1im () 





Đọc từ SAS 


1ibrary (foreign) ; 
xead,sad ()} 

















Đọc từ SPSS 1ibrary (foreign) ; 
xead.spss () 

Đọc từ Stata 1ibrary (foreign) ; 
read. dta () 

Tạo data frame dat=data. 


frame (x1,%2, x3) 
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Mô phỏng 














PHÂN TÍCH / VIỆC HÀMR 
Tạo dãy số -4, -3.5, -3.0, ... 3.0 seq(-4, 3, 0.5) 
Tạo dãy số 1, 2, 3,... 10 1:10 
Nhập số 5, 7, 8, 1 vào biến x x”“e(5, T, 8, 1} 
Lặp lại số “1” 5 lấn. rep(1, 5) 





Lặp”A”4 lần 


rep("A*, 4) 





Yếu tổ 3 bậc, lặp lại 2 lần, tổng cộng 12 số 


g1(3, 2, 12) 





Mô phỏng 





Phân bố chuẩn (normal distribution) 1000 đối tượng, 
với trung bình = 0 và độ lệch chuẩn = 1 


xrnorm(n=1000, mean=0, sd=1) 





Phân bố mũ (exponential distribution) 


xexp(n, rate=l) 





























Phân bố gamma. zqawma (n, shape, scale=1) 
Phân bố Poisson xpois(n, lambda) 

Phân bố Weibull zweibu11 (n, shape, sca1e=1) 
Phân bố Cauchy. xcauchy (n„ 1ocation=0, scale=1) 
Phân bố beta rbeta(n, shapel, shape2) 
Phân bố t rt(n, đf) 

Phân bố Khi bình phương. rchisq(n, d£) 

Phân bổ nhị phản (binomial) rbinom(n, size, prob) 





Phân bố geometric 


zgeom(n, prob) 





Phân bố hypergeometric 


xhyper (nn, m„ n„ k) 





Phân phối log normal 


+1norm (n,mean1og=0, sd1og=1) 





Phân phối logistic. 


x1ogis (nụ 1ocation=0, scale=1) 





Phân phối negative binomial 


znbi nem (n,size,prob) 





Phân phối uniform. 








xun{£ (n,min=0,max=1) 








'Mlpe/fielun heploerg 


Biên tập dữ liệu 


PHÂN TÍCH /' 


Tạo biến mới ($) dat=data . £rame (x1, %2) ; 
dat§x3 = dat$x1 + đat$x2 


Mã hoá dữ liệu dat$sex [gender: 
dat$§sex [gender=: 














"male"] <- 1; 





'emale"] <- 2 





Hoán chuyển dữ liệu as.numeric(), as.character(), as.vector()„ 
as.matrix(), as.data.frame 





Data.frame như là ma trận | at [, + ì 
đat[,2:3] 
dat [2,) 

dat [3:8,] 
dat[1:5, 2:3] 








Subset dữ liệu đat2 = subset (dat, id<=5) 





Sort dữ liệu ‡đ = e(1:5) 

name = c(" 1C", "D®,*E®) 
x“= c(12, 45, 67, 32, 26) 

dat = data.frame(id, name, x) 
new.dat = dat[order(x), ] 
new.dat = dat[-order (dat§x), ] 








Merge dữ liệu dat = merge(datl, dat2, by="id"); 
dat = merge(datl, dat2, by="id", all,xeT, a11,eT) 
Chuyển từ cột sang dòng | ‡4=£ (1:3) 
Sex=c ( PM", "E", "M”, "E”) 
group=c (1,1,2,2) 
day1=c (15,16, 21, 31) 
day2=c (17, 15,23, 35) 
day3=c (19,20, 19, 33) 
đat=data.. £rane (1d, sex,group, đay1, day2, day3) 
zequire (reshape2) 
dat1 = melt(dat, 
id=e("id", "sex", "group "), 
measure.vars=c ( "day1", "day2", 











day3")) 





Chuyển từ dòng sang cột | require (reshape) 
dat2 = cast (dat1, 











id+sex+group ~ variable) 
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Biểu đồ cơ bản trong R 


Biểu đồ phân bố hist (x, breaks=20, col~="biue", border="white") 
(histogram). # Thêm density 

1ines (đensšty (na.omit (x)}, col="red", 1wd=2) 
Biểu đồ hộp (box plot) boxplot (hdl, notch=T, col="blue") 

# Biểu đồ cho theo nhóm sex 

boxplot (x ~ sex, col="blue", notch=7, names=c (“Men", 








“Romen*) 
Biểu đồ tương quan. Plet(y ~ x, pch=l6] 
{scatter plot) # dùng package car 


scatterplot(y ~ x„ pchz16, ømooth=F, col="blue", 1wd<2) 
# Biểu đổ cho theo nhóm group 

scatterplot(y ~ x | group, pch«c(16, 14), 
smooth=F, col«c("blue","red"), Iwd=c(1,2) 

Biểu đồ tương quan đa biến | 11bzazy (paych) ; 
(package psych) vars = cbind(ag: 
pairs.pan‹ 


Phân chia cửa số. PA (mfrow*c(rows, cols] ) 








bmd, whr, hdl, 1d1, {nsulin, ir); 
ø) 














Biểu đồ dùng package chuyên dụng ggplot2 


Biểu đố phân bố qplot(x) + geom histogram(coì="white", fi11="blue") 
(histogram). # Thêm đensity 
Biểu đồ phân bố P * ggplot(data=pisa, aes (MATH))z 


có thêm đường density. Pp * geoem histogram(bindwith=20, Aes(y=.. 
density..), col="white", fill1="biue", 1wd»0.5} 


+ geom_density () 











+ labs (x="MATH SCORE", y="Frequency"} 

Biểu đồ phân bố cho. qpÌot (MATH, coi=AREA, geom="histogram", facets=-AREA) 
nhiều nhóm; mỗi nhóm. 

một box riêng. 

Biểu đồ phân bố cho. P “ ggpÌct(data=pisa, aes (MATH]) 

nhiều nhóm; mỗi nhóm 

một box riêng; hai biến P + gecm histogram(binwidth=20, aes(y= 





phân nhóm density..), col="white", 11~"blue", 1wd=0,5) 
+ geom density() + facet griđ(REGION - AREA) 
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Biểu đồ phân bố cho qplot (MATH, geom="density", f411=AREA, 
nhiều nhóm; thêm đường | AiPha=1(0.5)) + epts(1egend.pesition= "top ") 
biểu diễn và density 
Biểu đồ tương quan (xy) | 4plot(x=8EAĐING, y=MATH, col~AREA) + stat smooth 
phản theo nhóm. (method= "1m") + epts(1egend.pesition="top”") 
Biểu đố xy cho từng đối | £ = 3gplot(data=long, aes(x=visit, y=L124, 
tượng; vẽ chồng lên nhau | 97©wP=id, coleur = factor(44)))z 

P + geom line(} + opts(1egend,text= 

thene text(size=5)) 
Biếu đố xy cho từng. P “ ggplot(data=long, aes(x=visit, y=L114)) 
đối tượng; mỗi đối tượng. 
một box P + geơm poiïnt() + geom smooth(method=lm) 

+ facet_wrap(~ìd} 
Phân tích mô tả 




















Trung bình; phương sai; độ lệch chuẩn; | nean (x); var(x); sđ(x); median(x)z 

trung vị; giá trị thấp nhất; nin(x); max(x); range(x); 1ength(x) 

giá trị cao nhất; range; số đối tương 

Tính bách phân vị 2.5, 50, 97.5%. quantile(median, probs«c(0.025, 0.975)) 

Tóm tắt dữ liệu sua cy (dataset) 

Tóm tắt dữ liệu cho nhiều biếnhay _( ':bzazy(psych); 

dataset dùng describe (trong psych) ( sur=arzy(dataset, skew' range=F) 

Tóm tắt dữ liệu cho nhiều biến hay 1‡brary (psych. 

dataset; theo nhóm describeBy(dataset, skew*F, range=f) 

Tóm tắt bằng hàm tabular. tabular (REGION ~ 1)z 

(trong tables); biến phản nhóm tabxular (REGION~1*(n=1 + Percent("coi")))z 
tabular (REGION ~ AREA* (n=1 + PercenL("row")))z 
tabular (RBGION ~ AREA* (nel + Percent ("co1"))); 
talsalar (RPGION*AREA ~ TYPE) 

Tóm tắt bằng hàm CrossTable. CrossTable (REGION, TYPE, prop.c=T?, prop.r=T, 

(trong gmodels); biến phân nhóm | Pr9P-+*F, prop.chisqeF, chisg=7) 

Tóm tắt bằng hàm tabular tabular (REGION ~ MATH* (n=i+mean+sd) ) ; 

(trong tables); biến phân nhóm. tabular (REGION*TYPE ~ MATH* (n=i*+mean+sd) ); 











tabular (REGION*TYPE ~ (MATH + READTNG) 
* (n=1*mean+sd) ) 
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Kiếm định xem biến x 
có tuân theo luật phân bố chuẩn 


shapiro.test (x) 








Kiểm định t xem trung bình mẫu. t.test(x, nu=30) 

bằng trung bình quắn thể (mu) 

Kiếm định t hai nhóm độc lập. t,test(x ~ group); 

{unpaired t-test) hoặc t.test (groupi, group2) 








Kiểm định thai nhóm không độc lập. 
{(paired t-test) 


t.test(x ~ group, pairede7); 
hoặc t.test (groupl, group2, pairedeT) 





Kiểm định phương sai hai nhóm 
Kiếm định Wilcoxon cho 2 nhóm độc lập. 


var,test(x ~ group)] 


wilcox.test (x ~ group) 





Kiểm định Wilcoxon cho 2 nhóm 
không độc lập 


Kiếm định nhị phản cho mốt tỉ lệ 
{binomial test) 


So sánh 2 tilệ; kiếm định nhị phản. 





wilcox.test(gzoupi, gzoup2, patzed*TRUE) 


# kiểm định xem tấn sô x xây ra trong sô 
n có bằng 50% 


PFOp,test(x, n„ 0.50} 
fracture = c(T, 
total = (100, 
prop.test (£ractur: 


20) 
0 





,„ total) 





Kiểm định Khi bình phương ( z ? test) 
2nhóm 


Kiểm định Khi bình phương (z test) 
nhiều nhóm 


freq = table(sex, ethnicity); 
prop.test (£req) 


chisq.test (sex, ethnicity) 











cho một tỉ lệ gần 100% hay gắn 0 
(Phương pháp Cai & DasGupta 2002) 


Kiếm định chính xác Fisher fisher,test (sex, ethnicity) 

(Fishers exact test) 

Khoảng tin cây 95% cho một tỉ lệ +ibrazy (binem) ¿ 
xe“ cÚ, 5, 7)z 
n = rep(10, length(x)); 
binom.confint (x, n„ con£.1evel=0.95, 
methods="a11 ") 

Khoảng tin cảy 95%. n“40; x=39; alpha=0.05; 


beta (c (aipha/2, 1~a‡pha/2) „ x+0.5, a~x+0. 5) 





Khoảng tin cây 95% chính xác 
cho2tilệ 








zequi re (“ExactCTdi££ ") ¿ 
# binor Ini,n2,x1,x2,conf.1eve1,Cïtype} 


binozmCï (10,15,2,4, conf. 
1eve1=0.95,Cïtype~ “Two.. sí đed ") 
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Mô hình hồi qui tuyến tính 





PHÃNTÍCH 


HÀMR. 





Hệ số tương quan. 
Pearson (coefficient of 
correlation) giữa x và y 


cor (X„ VÌ 
cor.test (x„ y} 








Hệ số tương quan cor.test (x„ y„ method="spearman") 
Spearman 
Hệ số tương quan Kendall | cor.test (x,„ y„ method="k*enda11 ") 





Mô hình hồi qui tuyến 
tính đơn giản y = a + bx 


m= 1m(y - xì; 
sunmary (m) ; 
anova (m) 





Mô hình hồi qui 
tuyến tính đa biến 
y=a+bx,+bx,+b,X,+~ 


m~ Im(y ~ x1 + x2 + x3 + ...); 
summnary (m) ; 
anova (m) 





Mô hình hồi qui đa thức 
y=a+bmx' +bxt+~.+bixP 


# đa thúc bậc 2 
m= 1m(y ~ poly(x, 2)) 
# đa thúc bậc k 

m= Im(y ~ poly(x, kì 





Tìm mô hình “tối ưu” 
bằng tiêu chuẩn AIC 





1m(y ~ w1‡x2+x34x4+x5+x6+x7, data=REGdata); 
1m(y ~ ., đata=REGdata) ; 
both ”) 





step(reg, directio: 





Tìm mô hình “tối ưu” 
bằng tiêu chuẩn BIC 
(Bayesian Model Average) 


1ibrary (BMA) ; 
xvars = REGdata|, 





1)¿ 

yvar = REGdata|,1); 

bma = bicreg(xvars, y„ strict=FALSE, OR=20) 
magep1ot .bma (bma) 





Phân tích phương sai 





PHÂNTÍCH 


HÀMR. 





Mô hình phân tích 
phương sai đơn giản hay 
ANOVA: y và x (x là factor) 


m= 1m(y ~ x); 
m= aov(y ~ x)z 
summay (x) ; 


anova (m) 





So sánh giữa các nhóm 
(post-hoc comparison) 


pairwise.t.test (gaiactose, group, p.adj="bonferroni") 








từ ANOVA, phương pháp 
Bonferroni 

So sánh giữa các nhóm. m= aov(y ~ x) 
(posthoccomparison)từ _ | TukeyiSD(m) 
ANOVA,phương pháp Tukey 
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Phân tích phương sai phi | krosks1.test(y ~ x) 
tham số (Kruskal test) 
Phãn tích phương sai với | m = äev(y ~ g1 + g2 + g3) 

nhiều factor g1, g2, g3. TukeyHSD (m) 

plet (TukeyHSĐ (m), ordered=TRUE) 

Phân tích phương sai giai | m = aov(y ~ facterl + factor2 + factor3); 
thừa (factorial experiment) | aneva (m) ; 


plet (TukeyHSÐ (m), crderedeT) 
Phân tích phương sai thí | m = ìm(y ~ treat + seg + peried); 














nghiệm giao chéo aneva (m) ; 
{cross-over experiment) TukeyBS0 (aov(y ~ treat+seqg+period+id)) 
Phản tích hiệp biến m= Im(y ~ x + factor) 
(analysis of covariance); | # c6 interaction 

x là biến liên tục m = ]m(y + x + factor + factor:x] 

Mô hình hồi qui logistic 





Mô hình hồi qui logistic: | m = gìm(y ~ x„ family="binemiai"); 
biến y là nhị phản, biến. surtzna r ý (m) 


x có thể là nhị phân hay 

liên tục 

Tính toán giá trị tiên. predict (m, type="response"); 

lượng; vẽ biếu đố. plot(x, fitted(glm(y ~ x, family="binomial"))) 


Mô hình hồi qui logistic đa | ® = g'm(y + xi + x2 + x3, family="binomial*); 
biến với 3 biến x1, x2, x3 3umma r y (m) 

Chọn mö hình “tối ưu” 1ibrary (BMA) ¿ 

bằng phương pháp xvara = cbind(x1,x2,x3,x4,x5)¿; 


Bayesian Model Average | pma = bic.gìm(xvars, y, strict 
family~"binomial"); 


1mageplot .bma (bma) 
Mô hình hồi qui Poisson | age=e(19.5,29.5,39.5,49.5,59.5,69.5,79,5) ; 
cases = c(1, 16, 30, 71, 102, 130, 133); 


Pep = c(172675, 123065, 96216, 92051, 72159, 
54722, 32185); 


dat = data.frame(age, cases, pop) 
1ibrary (MASS) 


m = glm(cases ~ age + offset(log(pop)), 
fami1y<poisson, data=dat) 


3unvnA r V (m) 
Mô hình hối qui Binomial ( 11brary (MASS) 
m~ gÌm.nb(y ~ x1 + x2 + x3) 


# chú ý: y là biển phụ thuộc, x1, x2, x3 là biển 
tiên lượng sumnary(m) 








OR=20,gìm. 











'lpe/eulun heploerg 


Mô hình hồi qui Cox và phân tích sống còn 






























































PHÂN TÍCH 
Phương pháp Kaplan-Meier | +‡bzazy (surzviva1) ; 
# status=l là có biển cổ, 0 là censored 
survtine = Surv(weeks, status==l))z 
kp ~ surviit (Surv(weeks, status==1) ~1); 
plot (kp) 
Phương pháp Kaplan-Meier, | PYaroup = survfft (Surv(Eime, sLatus==1) xgroup) ý 
so sánh 2 nhóm. summary (bygroup) ; 
plot (bygroup) 
Mô hình Cox đơn biến m = coxph (Surv (time, status==l) ~ group)¿ 
summar y (m) 
Mô hình Cox đa biến, m = coxph(Surv (time, status==l) ~ group+x1+x2); 
với biến tiên lượng x1,x2_ | summazy (m) 
Tìm mô hình Cox”tối ưu” | eex = coxph(Surv(y, status) ~ .„ đata=dat); 
bằng phương pháp AIC_ | sumnary (cox) ; 
search = step(cox, direction="both")¿ 
sunmary (search) 
Tìm mô hình Cox“tối ưu” | +ibzary (BMA) ; 
bằng phương pháp bma = bic.surv(xvars, time, death); 
Bayesian Model Average _ | sumnary (bma) ; 
imagep1ot .bma (bma) 
Phân tích đa biến (multivariate analysis) 
'HÃN TÍCH HÀMR 
Phân tích thành phần pca “ princomp(~factorl + factor2, data=temp) ; 
(principal component summary (pCa) ; 
analysis) 1oadings (pca} 
Phân tích cụm dat = read.table(Lext: 
(cluster analysis): x1 x2 
đo lường khoảng cách 48 
56 
10 11 
118 
175 
193 
20 11 
212 
"„ header=T) 
distance = dist (đat) 
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nhân:y là biến phân tích và time. 
là thời gian,id là mã cá nhân 


Phân tích cụm. 1ibrary (Cluster) ¿ 
(cluster analysis): hc.average = hclust(dist, method = "average"); 
phân tích plot(hc.average, hang = -1, main = "average") 
Phân tích cụm. 1ibrary (NbClust) ; 
(cluster analysis): teeth = read.table(teeth.txt", header=T) 
xác định số cluster teethl = as.numeric(as.matrix(teeth{,~1]) 

NbC1ust (teeti method = “average”, index = "“all") 
Mô hình mixed effects 

PHÃNTÍCH. HÀMR 

Biểu đồ xyplot cho từng cá 1ibrary (rm8) ; 






attice); 
xary (1me4) ; 


Xyplot(y ~ time | id, type=C("p","r"), as.table=time) 





Biểu đồ interaction cho từng 
cá nhân: y là biến phân tích và 
time là thời gian 


ft = by(y, id, 
funetion (data) fitted.values (1m(y ~ time, 


data=data) )); 


















y +) +(B+V)T+ 6; 
y,=(A+BT) +(u+vT+e) 





fit = unlist(fít); 
names (ft) = NULL¿ 
intera: on.piot (time, id, fit) 
Mô hình unconditional growth: | ++bzazy (1me4) 
9ì Sa, +bT+6; 
q=A+u; tít = 1mer(y ~ 3 + time + (3 + time | id), 
b=B+v; data=giucose, REML=0) 


summary (fÍE) 





Mô hình conditional growth: 

\, +A,x treatment + u; 

), + B,x treatment + v; 

(A, + A,xtreatment + B,T 

+ B,x treatmentxT) + (u + vĩ +) 













ft = 1mer(y ~ 1 + 
tỉme:treatrlent + 
REML=0) 





xeatment + time + 
(1+time|id), data=glucose, 





summary (fÍ) 
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Phân tích tổng hợp 
PHÂNTÍCH. 





HÀM. 





Phân tích biến nhị phân, 
2 nhóm: chuẩn bị dữ liệu 





Study 3ã 
NI 
DI = s 


N0 ~ số bệnh nhân nhóm 2 





" 
ñ 
L5 


bệnh nhân nhóm 1 
biển cô nhóm 1 


5 


D0 = số biễn cỗ nhóm 2 

S1 = N1-D1 # số không biễn cổ nhóm 1 

80 = N0-D0 # số không biển cổ nhóm 2 

bb = data.£rame (Study,N1,D1, S1,N0, D0, S0). 





Phân tích biến nhị phân, 
2 nhóm: tính effect size 


1ibrary (metafor) 


es = escalc(measure = "RR", ai=D1, bi=§1, ci=D0, 


di=§0, data=bb, append=T) 





Phân tích biển nhị phân, 
2 nhóm: random effects 
model 


re = rma(yi, vi, data = es); 
ummary (re) ; 

plet (re) 
Forest (re, atransf=exp) 








Phân tích biến liên tục, 

2 nhóm: chuẩn bị dữ liệu 
(n=số đối tượng, m=trung. 
bình, sd=độ lệch chuẩn) 


n1 = c(155,31,75,18,8, 57, 34, 110, 60) 
mì = c(55,27,64,66,14,19,52,21,30) 
sd1 = c(47,1,17,20,8,7,45,16,27) 

n2 = c(156,32,71,18,13, 52,33, 183,52} 
m2 = c(75,29,119,137,18,18,41,31,23) 
sd2 = c(64,4,29,48, 11,4, 34,27, 20) 
1os = data,£rame (n1,m1,sd1,n2,m2,sd2) 





Phân tích biến liên tục, 
2 nhóm: tính effect size 


1ibrary (metafor) 

es = escalc(measure= "MD ", n1i=n1, m1i=m1, 
sd1i=sd1, n2i=n2, m2i=m2, sd2i=sd2, data=los, 
append=T) 





Phân tích biến liên tục, 
2 nhóm: random 
effects model 











xe ~ rma(yi, vi, data-es, method="FE"} 
plot (re) 


forest (re) 
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Phân tích bootstrap. 


Lấy mẫu ngẫu nhiên. x=c(, 2, 3, 4, 5, 6, T, 8, 10) 
sample(x, 5, replace=T) 
sample(x, 5, replace=F) 


Khoảng tin cậy 959%. x = c(0.05,0.15,0.35,0.25, 
cho trung vị n = length (pain) ; 

B=1000; 

nedian = numeric(B) ¿ 

for (1 in 1:B) 

{ 














bs.sample = sample(x, nụ replace=T) 
median [4] = median (bs.sample) 

) 

quanti1e (median, prob: 

hist (median, coi="blue" 


So sánh 2 số trung vị control = e(52,104,146, 

treatment = c(94, 197, 16, 

B=1000; 

con = rep(NA, B); 

trừ = rep(NA, B); 

for (1 in 1:B) { 
con[‡] = median (sample (control, replace=T)) 
trt[i] = median (samp1e(treatment, replace=T) ) 
đif[i] = trt[i]-con[i]} 

) 

quantile(dif, c(0.025, 0,5, 0.975)) 


So sánh 2 tỉ lệ n= c(11037, 11034); 
disease = c(104, 189); 
aspirin = c(rep(1, disease[1]), rep(0, n{1i~disease(1])); 
control = c(rep(1, disease[2]), rep(0, ni2j~disease[2])); 
B = 10000; 
bs1 = rep(NA, B); 
ba2 = rep(NA, B); 
for (4 in 1:B) { 
resamplel = sample(aspirin, n[1], replace=T) 
đis1 = sum(resamplel) 
resample2 = sample(controi, n[2], replace=T) 
đis2 = sum(resamp1e2) 
bs1li] = dis1/n[1] 
bs2[i] = dis2/n[2] 
} 


(0.025, 0.975)) 
border="white", main= 








li 














RR “ bs1/bs2; 
quantile(RR, c(0.025, 0.50, 0.975) 
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So sánh 2tỉlệ, phương - | x = 11; n1 = 20; aiphal = 1; beral = 1; 

pháp Bayes y= 5z n2 = 20; alpha2 = 1; beta2 = 1; 
Ppl “ rbeta(10000, x + alphal, n1 - x * betal); 
p2 = rbeta(10000, y + alpha2, n2 - y + beta2); 
rả = p2 - P1; 
plet (density (rẻ) }; 
quantile(rd, c(.025, 

Ước tính cỡ mẫu 

Ước tính cỡ mẫu (n) alpha=0.05; z = qnerm(0.05/2) 

cho một tỉ lệ p“0.10; e = 0.01 
n = (z/e]^2*p*(1-p) 
# Dùng package epicalc 
1ibrary (eptcale) z 
n = n.for.survey(p=0.10, delta=0.01, alpha=0.05) 

Ước tính ø cho một số aìphas0.05; z = qnorm(0.05/2) 

trung bình. sigma*l2; œ = 2.5 
n “ (z/e*sigma]^2 ; n 

Cỡ mẫu cho nghiên cứu _ | ìibrary(epicaic); 

so sánh 2 tỉ lệ n = n.for.2p(p1=0.75, p2=0.90, power=0.9, 
alpha=0.05, ratie=l); 
n 

Cỡ mẫu cho nghiên cứu | 1ibrary(eptcalc); 

so sánh 2 số trung bình. n “ n.for.2means(mul“0.80, mu2=0.84, sđi=0.12, 
d2*0.12, power*09.9, alpha*0.05, ratio*l); 
" 

Cỡ mảu cho nghiên cứu | 1ibrary(epi8); 

so sánh 2 survival curVes | epi.studysize(treat=0.60, control=0.50, n=NA, 
sigma=NA, power=0.80, r=l, conf.level=0.95, 
sided.test=2, method = “survival*} 

Cỡ mẫu cho nghiên cứu | 1ibrary(epi®); 

bệnh chứng epi.studysize(treat = 2/100, control = 1/100, 
n= NA, sigma = 0.30, power = 0.90, r = 1, conf.level 
= 0.95, sided.test = 2, nethod = "case.control") 

Cỡ mẫu cho nghiên cứu. 1ibrary (ep{R) ; 

đoàn hệ smoke=1..4* (5*413) /100000 
nonsmoke= (5*413) /100000 
epi.studysize(treat=smoke, contrel=nensmoke, 
n=NA, sigma=l power=0.90, r=l, conf.level=0.95, 
sided.test=l, method="”cohort.count ") 
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Phân tích số liệu dãy thời gian (time series) 

















và random: dữ liệu không 
có season 


Sắp xếp dữ liệu births = scan("~/Documents/births.txt ") 

bằng hàm ts ts.births = ts(births, frequency=l2, 
start=c(1946, 1)} 

'Vẽ biểu đồ time series plet.ts(ts.bírths) 

Trung bình động 1ibrary (TTR) ; 

{moving average) với bậck | SMA (ts.births, n=5] 

Phản tích trend,season, | a5 = SMA(ts.births, n=5} 


plot.„ts (ma5) 





Phân tích trend, season, và 
random: dữ liệu có season. 


cozp = deconpose(tø.births)z 
conpz 
plet (comp). 





Điều chỉnh cho season. 


adj.births = ts.births~cemp§seasenal; 
plet (ad) .births) 





Tiên lượng bằng phương. 
pháp simple exponential 
smoothing 


Tiên lượng bằng phương. 


1ibrary(forecast]; 

forecast “ HoltWinters(ts.births, beta*F, gammasF); 
forecast; 

plet (Es.bírtha) 





plot (forecast] 


forecastl = HeltWinters(ts.births, gamma=F); 




















pháp Holt exponential forecastl; plot(forecastl) 
smoothing 
Tiên lượng bằng phương | ferecast1 = ?ioltWinters(ts.births); 
pháp Holt-Winters. forecastl¿ plot(forecastl); 
smoothing 
forecast2 = forecast.HoltWinters(forecastl, hs60) 
plet.forecast (forecast2) 
Mô hình ARIMA: skirts = scan("~/Docunents/skirts.txt", skip*5); 
sai phân (differencing), ts.skirts = ts(skirts, start=c(1866)); 
differences=k # tính sai phân 
đif.skirts = diff(ts.skirts, differencesel); 
plet.tø (di£.skirts) 
Autocorrelation và acf(dif.kings, lag.max=20, plot*F)¿ 
partial autocorrelation acf(dif.kings, lag.max=20); 
pacf(dif.kings, lag.max=20, plot=F); 
pac£ (di£.kings, lag.max=20) 
Mô hình MA. kings = scan("~/Docunents/kings.txt ") 


1ibrary (forecast]; 
auto.arima (kings] 
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Mô hình RA ve = scan ("~/Docunents/vulcano.txt ") 
ts.vc = ts(vc, start=c(1500)); 
plot.Es (s.V€)¿ 

auto.arima (ve) ; 

auto.arima (ve, ic="bic") 





Mô hình ARIMA(p,d,q)_ | arima1 = arima(ts.kings, order=c(0, 1, 1)); 
arimal 








Tiên lượng bằng mô hình. | 1ibrary (foerecast) ; 
ARIMAtp, d, q) forecast1 = forecast.Arima(arimal, hZ5)¿ 
forecast1; 








plot..£orecast (Forecast1) 








WinBUGS 


Bước 1: Viết mô hình 
MODEL ( 


# prior information 
Ppl ~ đbeta(0.5, 0.5) 
P2 ~ dbeta(0.5, 0.5) 


# data or 1ikelihood 
x1 ~ đbin(p1, n1) 
x2 ~ dbin(p2, n2) 


# effect size 
đi££ = pI-p2 
rr = pl/p2 
or = (p1/(1-p1)) / (p2/(1-p2)) 
1ogOR = log (or) 
Ppos = step(OR - 1) 


DATA 1ist(x1=3, n1=18, x2=2, n2=23) 
Bước 2: Kiểm tra ngữ pháp. 

Model => Specification 3 Specification Tool: 
Highlight MODEL, nhấn check model 
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Bước 3: Nhập dữ liệu 

Highlight list. Specifñcation Tool  Load data 

Bước 4: Compile 

§pecifcation Tool  Compile 

Bước 5: Initial value 

§pecification Tool 3 gen inits 

Bước 6: Mô tả thông số (parameter) 

Inference  sample => Sample minitor tool 

node trong Sample Monotor Tool và gõ tên parameter 
Bước 7: Mô phỏng (generating simulated values) 

Model 3 Update Update Tool (from 5000, refresh 100) 
Bước 8: Xem xét kết quả thông tin hậu định (posterior information) 
Sample Monotor Tool 3 beg 

Chọn thông số (trường hợp này là p) từ ñeld node 

Bước 9: Chẩn đoán (diagnosis) 

Sample Monitor Tool và nhấn chuột vào nút history. 


Lập trình và hàm với R 


R được phát triển sao cho người sử dụng có thể phát triển những hàm. 
thích hợp cho mục đích phân tích và tính toán của mình. Thật vậy, như đã để 
cập trong phấn đấu của sách, có thể xem R là một ngôn ngữ thống kẻ, và chúng 
ta có thể sử dụng ngôn ngữ để giải quyết các vấn để không thường thấy trong 
sách giáo khoa. Phần này chỉ trình bày một vài hàm đơn giản để bạn đọc có 
thể hiểu cách vận hành của R và hi vọng giúp bạn đọc tự phát triển các hàm 
sau đó. 

Hàm (hay có khi còn gọi là “macro” trong các phấn mếm khác) thực chất 
là tập hợp một số lệnh được lưu trữ dưới một cái tên. Ở mức độ đơn giản nhất, 
hàm là “tốc kí” cho một nhóm lệnh. 

Ví dụ 1: Trong các lệnh sau đây, chúng ta tạo hai dữ liệu (data1 và 
data2). Mỗi dữ liệu có hai cột số liệu được tạo ra bằng mô phỏng từ phân 
phối chuẩn. Sau đó, vẽ biểu đố cho hai dữ liệu với ghi chú. 
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datal = cbind(rnorm(100,1), rnorm(100,0}} 
data2 = cbind(rnorm(100,~1), rnorm(100,0)) 
xr = range(rbind(data1,data2) [„1]) 

yr ~ range (rbind(data1,data2) [,2]) 
plot(datal, xlim=xr, ylim=yr, col=l, xlab= 
par (new=T) 


plot(data2, xlim=xr, ylim¬yr, col=2, xlab= 


, ylabm " " } 


" 6“ ¿ yiabe ® *) 


title(main= "My simulated data" , xlabx "Weight' , ylab~ "Yield ") 





legend(-3.0, -1.5, c( "Big" „  "“Small" 


}, col=1:2, pel 





1) 


Một cách để nhớ tất cả các lệnh này là lưu trữ chúng trong một text file 


chẳng hạn. Mỗi lấn muốn sử dụng, chúng ta chỉ đơn giản cắt và dán các lệnh 
này vào R. Một cách khác tốt hơn là tạo ra một hàm gốm các lệnh trên để có 
thể sử dụng nhiều lấn. 








Mỗi hàm R phải có tên. Tất cả các lệnh được chứa trong khu vực được giới 


hạn bằng hai kí hiệu ( và ). Kí hiệu ( cho biết tất cả các lệnh sau đó là nằm 
trong hàm; và kí hiệu } cho biết chấm dứt hàm. Trong ví dụ trên, chúng ta gọi 
hàm là plotfigure: 


plotfgure <- funetion() 
( 
datal = cbind(rnorm(100,1), rnorm(100,0)) 
data2 = cbind(rnorm(100,~1), rnorm(100,0)) 
xr = range (rbind (data1,data2) [,1]) 
yr = range (rbind(data1,data2) [,2]) 
plot(datal, xlim=xr, ylim=yr, col=l, xlab=" "„ ylab=" ") 
Par (new=T) 
plot (data2, xlim=xr, ylim=yr, col=2, xiab=" "„ ylab=" ") 
title (main= "My simulated data ", xlab= "Weight "„ 
yiab= "Yield ") 
legend(~-3.0, -1.5, c( "Big", "Small "), col=l:2, pch=1) 
} 


Sau khi đã cho vào R, chúng ta chỉ đơn giản gọi hàm nhiều lần như sau: 
> plotfiguze () 
> plotfigure () 


và kết quả sẽ như sau: 
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My simulated data My simulated data 








vưdd 
lì 


Yidd 


















































Trong hàm p1otfigure trên, chúng ta mô phỏng 100 số liệu từ phân 
phối chuẩn. Và cứ mỗi lần ứng dụng, hàm chỉ tạo ra 100 số liệu, chúng ta 
không thay đổi được (ngoại trừ phải thay đổi từ lúc biên tập, hay lập hàm). Nói 
cách khác, hàm trên không có thông số. 

Khía cạnh tiện lợi của hàm là chúng ta có thể làm cho thông số thay đổi 
theo ý muốn của người sử dụng. Chẳng hạn như chúng ta muốn thay đổi số 
liệu mô phỏng và trung bình từ luật phân phối chuẩn, chúng ta chỉ cần cho hai 
con số này là hai thông số (parameters) để người sử dụng có thể thay đổi. Tạm 
gọi đó là thông số n, mean1, và mean2, thì hàm sẽ như sau: 

plotfgure <- function(n, meanl, mean2) 


Ÿ 

datal = cbind(rnorm(n,mean1), rnorm(n,0)) 
đata2 = cbind(rnorm(n,mean2), rnorm(n,0)) 
xr = range (rbỉnd (đata1,data2) [,1]) 

yr = range (rbind(đata1,data2) [,2]) 
plot(datal, xlim=xr, ylim=yr, col=l, xlab= 





par (new=T) 
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plot(data2, xlim=xr, ylim=yr, col=2, xlab="", ylab="") 
title (main="My simulated data", xlab="Weight"”, 
ylab="Yield") 

legend(-3.0, -1.5, c("Big", "Small"), col=l:2, pch=1l) 

} 

Khi ứng dụng hàm, chúng ta chỉ đơn giản thay đổi n và mean. Trong hai 
lệnh sau đây, chúng ta đẩu tiên vẽ một biểu đồ tán xạ với 200 số liệu, và số 
trung bình -2 và 2. Trong lệnh hai, chúng ta nâng số liệu lên 200, nhưng trung 
bình vẫn như lần mô phỏng trước: 

> plotfigure(200, 2„ -2) 

> plotfigure (500, 2, -2) 





Và kết quả sẽ khác trên: 





Yied 





Weight 











Weight 





Ví dụ 2: Chúng ta muốn viết một hàm để cộng hai số. Tất nhiên R có khả 
năng làm “việc” này, nhưng vì lí đo minh họa, chúng ta sẽ giả thiết đơn giản 
như thế. Gọi hàm đó là addl. Hai thông số a và b là “arguments: Cách viết 
như sau: 

add <- function(a, bị} 

{ 
sum = a†b 
ans <- "Answer = " 
cat(ans, sum, "\n") 


} 
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Như đã thấy, bước đầu tiên, chúng ta cho tên hàm là add và định nghĩa 
thông số a và b. Một hàm phải được mở đầu bằng kí hiệu ( và chấm dút bằng 
}. sum là một biến số cộng a vàb. ans <- "Answer = " định nghĩa trả 
lời (có thể không cần). cat (ans, sum, "“\n") có chức năng thu thập số 
liệu và trình bày kết quả cho người sử dụng hàm, trong đó "\" có nghĩa là sau. 
khi trình bày, cho người sử dụng một prompt khác. Bạn đọc có thể dán các 
lệnh trên vào R và thử cho lệnh: 


> add(3, 9) 
Answer = 12 


> add(sqrt(5), exp(10)) 
Answer = 22028.7 


Ví dụ 3: Hàm sau đây tiến hành nhiều tính toán hơn hàm trong ví dụ 1, 
Nếu chúng ta có một biến số gồm n phần tử x,,x;,x,,....x„ tuân theo luật phân 
phối chuẩn với trung bình và phương sai ở”. Viết theo kí hiệu toán: 


x~ N(„,Ø`) 


Nếu chúng ta có thông tin trước cho biết Ji có luật phân phối chuẩn với 
trung bình 6 và phương sai +, hay: 
~N(8,?) 
Qua định lí Bayes, chúng ta có thể ước tính trung bình: 





0,1 
+ ơØ 
lun 
__ %.:Øt 


Bị | 


.ø 
[ 





Và phương sai 








Trong đó, * là số trung bình của mẫu n. #„ và 2 được gọi là "posterior”. 
Chúng ta có thể viết một hàm bằng R để tính hai số này như sau. Gọi tên hàm 
là bayes. 

bayes <- function(x, prior.mean, prior.var) 

( 

n <- length(x) 
sample.mean = mean (x) 
sample.var = var (x) 
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numerator = (prior.mean/prior.var) + (n*sample.mean/ 
sample..var) 


denominator = 1/prior.var + n/sample.var 
Pposterior.mean = numerator/denominator 
posterior.var = 1/denominator 


a= "Posterior mean = " 
b = “Posterior variance = " 
cat( "Sample size = ", n, "\n"”) 


cat( "Sample mean = ", sample.mean, "\n ") 
cat( "Sample var = ", sample.var, "\n ") 
cat( "Prior mean = ", prior.mean, "\n ") 
cat( "Prior var = ", prior.var, "\n ") 
cat(a, posterior.mean, "\n ") 

cat (b, posterior.var, "\n "} 

} 

Ví dụ 4: Mật độ chất khoáng trong xương (bone mineral density - bmd) 
trong một quần thể thường phân phối theo luật phân phối chuẩn, với giá trị 
trung bình khoảng 1.0 g/cm? và phương sai 0.0144 g/cm?. Giả dụ chúng ta đo 
mật độ xương của một nhóm bệnh nhân như sau: 1.0, 1.5, 2.1, 1.7, 
1.8, 0.9, 0.7. Chúng ta muốn biết giá trị trung bình và phương sai của 
mẫu này sau khi “điểu chỉnh” cho trung bình và phương sai đã biết trước. 
Trước hết, chúng ta gọi nhóm số liệu này là bmd: 

> bmd = c(1.0, 1.5, 2.1, 1.7, 1.8, 0.9, 0.7) 


và sau đó “gọi” hàm bayes như sau: 
> bayes (bmd, 1.0, 0.0144) 
Sample size = 7 

Sample mean = 1.385714 
Sample var = 0.2747619 

Prior mean = 1 





Prior var = 0.0144 
Posterior mean = 1.103525 
Posterior variance = 0.01053507 


"Trên đây chỉ là một vài hàng giới thiệu cách lập trình và viết hàm bằng 
ngôn ngữ R. Trong thực tế, tất cả các hàm như survival, BMA, meta, 
meta£or, zms, Hmi sc, v.v. đều được phát triển bằng ngôn ngữ R. Bạn đọc có 
thể tham khảo tài liệu “Introduction to R” của W. Venables và B. Ripley (phần 
cuối của sách) để biết thêm chỉ tiết kĩ thuật. 


'lpe/fielun heploerg 
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Phụ lục 2 
Thuật ngữ dùng trong sách 


















































95% confidence interval Khoảng tin cậy 95%. 
Akaike Information criterion (AIC)_ | Tiêu chuẩn thông tin Akaike 
Analysis of covariance Phân tích hiệp biến 
Analysis of variance (ANOVA). Phân tích phương sai 
Bar chart Biểu đồ thanh 
Binomial distribution Phân phối nhị phân 
Box plot Biểu đồ hộp. 
Categorical variable Biến thứ bậc 

Clock chart Biểu đồ đồng hớ 
Coefficient of correlation Hệ số tương quan 
Coefficient of determination Hệ số xác định bôi 
Coefficient of heterogeneity. Hệ số bất đồng nhất 
Combination Tổ hợp 

Continuous variable Biến liên tục 
Correlation Tương quan 
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Covariance. 


Hợp biến 





Cross-over experiment 


Thí nghiệm giao chéo. 





Cumulative probability distribution 


Hàm phân phối tích lũy 











Degree of freedom Bậc tự do 
Determinant Định thức 
Discrete variable Biến rời rạc 











Dot chart Biểu đồ điểm 
Estimate Ước số 
Estimator Hàm ước lượng thống kê 





Factorial analysis of variance 


Phân tích phương sai cho thí nghiệm giai thừa 


























Fixed effects Ảnh hưởng bất biến 
Frequency Tần số 

Function Hàm 

Heterogeneity Bất đồng nhất 
Histogram Biểu đồ tần số 
Homogeneity Đồng nhất 
Hypothesis test Kiểm định giả thiết 
Inverse matrix Ma trận nghịch đảo. 





Latin square experiment 


Thí nghiệm hình vuông Latin 





Least squares method 


Phương pháp bình phương nhỏ nhất 





Linear Logistic regression analysis 


Phân tích hồi qui tuyến tính logistic 





Linear regression analysis 


Phân tích hồi qui tuyến tính 





Matrix 


Ma trận 





Maximum likelihood method 


Phương pháp hợp lí cực đại 





Mean 


Số trung bình 








Median 





Số trung vị 
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Meta-analysis 


Phân tích tổng hợp 





Missing value 


Giá trị không. 





Model 


Mô hình 





Multiple linear regression analysis 


Phân tích hồi qui tuyến tính đa biến 





Normal distribution 


Phân phối chuẩn 

















Object Đối tượng 

Outlier Giá trị ngoại vỉ 
Parameter Thông số, tham số 
Permutation Hoán vị 

Pie chart Biểu đồ hình tròn 





Poisson distribution 


Phân phối Poisson 





Polynomial regression 


Hồi qui đa thức 

















Probability Xác suất 

Probability density distribution Hàm mật độ xác suất 
P-value Trị số P 

Quantile Hàm định bậc 

Random effects Ảnh hưởng ngẫu nhiên 





Random variable 


Biến ngẫu nhiên 











Relative risk Tỉ số nguy cơ tương đối 
Repeated measure experiment Thí nghiệm tái đo lường 
Residual Phần dư 





Residual mean square 


Trung bình bình phương phần dư 

















Residual sum of squares Tổng bình phương phần dư 
Scalar matrix Ma trận vô hướng 

Scatter plot Biểu đồ tán xạ 

Signifñcance Có ý nghĩa thống kê 
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Simulation Mô phỏng 
Standard deviation Độ lệch chuẩn 
Standard error Sai số chuẩn 





Standardized normal distribution 


Phân phối chuẩn chuẩn hóa 





Survival analysis 


Phân tích biến cố 





Transposed matrix 


Ma trận chuyển vị 




















Variable Biến (biến số) 
Variance. Phương sai 

'Weight Trọng số 

'Weighted mean Trung bình trọng số 
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__/AF, / è.-. 
Đôi lời bạt cùng bạn đọc 
(và tài liệu tham khảo) 








ta 22 chương sách và 2 phụ lục, bạn đọc đã đi cùng tác giả một hành 
trình khá dài trong phân tích thống kê và biểu đổ. Trước khi “chia 
tay” bạn đọc, tác giả cũng muốn có đôi lời tạm biệt. 


Qua kinh nghiệm giảng dạy và nghiên cứu cá nhân cho thấy phần lớn 
sinh viên khi tiếp cận với khoa học thống kê lần đấu chẳng mấy gì hào hứng, 
nếu không nói là khó khăn, vì sách giáo khoa soạn cho môn học này rất xa 
rời thực tế, với những ví dụ không có trong đời thường. Những khái niệm 
trừu tượng, những công thức rắc rối, những phép tính phức tạp và rườm rà 
làm cho người học cảm thấy khó khăn và từ đó cảm thấy thiếu hứng thú theo 
đuổi môn học. Thật vậy, có khi đọc sách giáo khoa, các bài báo nghiên cứu 
khoa học, chúng ta bắt gặp những phương pháp hay và những mô hình thích 
hợp cho nghiên cứu của chính mình, nhưng không biết làm sao tính toán các 
mô hình đó. Trong cuốn sách này, tác giả muốn cung cấp cho bạn đọc một 
phương tiện phân tích thực tế để lấp đi cái khoảng trống phương pháp và kiến 
thức mà có lẽ bạn đọc còn thiếu. 

Học phải đi đôi với hành. Cách học về phương pháp hay nhất, theo tôi, 
là... bắt chước. R cung cấp cho bạn đọc cách học mô phỏng đó rất tiện lợi. 
“Trong khi đọc những chương sách này cùng với những ví dụ, bạn đọc có thể 
gõ những lệnh vào máy tính và xem kết quả có nhất quán với những gì mình 
đọc hay không. Sau khi đã biết được cách sử dụng một hàm hay một lệnh nào 
đó, bạn đọc có thể thêm vào (hay bớt ra) những thông số của hàm để xem kết 
quả. Chỉ có học như thế thì bạn đọc mới nắm vững được các khái niệm và 


cách sử dụng R. 
8P — 
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Chúng ta học từ sai sót. Qua cuốn sách này, tác giả muốn bạn đọc đi một 
quảng đường khá... gập ghếnh, tức là bạn đọc phải tương tác với máy tính bằng 
những lệnh của R. Trong quá trình tương tác đó, có thể một số lệnh sẽ không 
chạy, vì gõ sai tên biến số hay sai chính tả, vì không để ý đến kí tự viết hoa và 
viết thường, vì số liệu không đấy đủ hay sai sót, v.v... Tất cả những lần sai sót đó 
sẽ giúp cho bạn đọc rút ra kinh nghiệm và trở nên thành thạo hơn. Đó là cách 
học mà người Anh hay gọi là “trial and error”, học từ sai lầm và thử nghiệm. 


Tinn-R 


Một công trình phân tích số liệu cần nhiều lệnh và hàm R. Tuy nhiên, vì 
tính tương tác mà bạn đọc theo dõi, các lệnh này sẽ biến mất khi ngưng R. 
'Vấn để đặt ra là có cách nào lưu trữ các lệnh này trong một hồ sơ để sau này sử 
dụng lại. Phần mềm cực kì có ích cho mục đích này là Tinn-R (cũng có thể 
tải xuống và cài đặt vào máy hoàn toàn miễn phí). Website để tải Tinn~R và 
tài liệu sử dụng là: http://www.sciviews.org/Tinn-R. 

Tỉnn-R thực chất là một editor cho R (và nhiều phần mềm khác). 
Tinn=R cho phép chúng ta lưu trữ tất cả các lệnh cho một công trình phân 
tích trong một hồ sơ. Với Tinn-R, chúng ta có sẵn một chỉ dẫn trực tuyến 
về cách sử dụng các lệnh hay hàm trong R. Trong khi lệnh gõ sai “văn phạm” 
R, Tỉnn-R sẽ báo ngay và để nghị cách sửa! Giao điện Ti nn~R có thể giống 
như sau: 
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Chẳng hạn như trong giao diện trên, khi chúng ta gõ read.table ( 
thì một chỉ dẫn ngay phía dưới hiện ra, với tất cả thông số của hàm 
read.table. Với Tinn-R chúng ta ít khi phạm phải những sai sót nhỏ 
trong khi chạy R. Sau khi đã xong một số lệnh, chúng ta có thể dùng chuột để 
tô đậm (highlight) những lệnh cần chạy và gửi sang R. Chú ý chúng ta không 
cần phải rời Tinn-R trong khi R chạy. 

Đến đây, có lẽ bạn đọc sẽ hỏi: có cách nào sử dụng R dễ đàng hơn mà 
không cần phải gõ các lệnh? Câu trả lời là.... có. Tại sao tôi không giới thiệu 
trước, ngay từ chương đấu? Tại vì, tôi muốn bạn đọc đi con đường khó trước 
khi đi con đường để, nên đến bây giờ mới nói đến một phần mềm phụ khác 
có khả năng giúp cho bạn đọc sử dụng R một cách nhanh chóng hơn, dễ dàng 
hơn, và tiện lợi hơn bằng chuột thay vì bằng bàn phím. 








Rcmdr 


Phần mềm để “tự động hóa” R có tên là Remdr (viết tất từ R eommnander). 
Trong thực tế, đemdr là một package mà bạn đọc có thể tải từ website chính 
thức của R (http://cran.au.r-project.org/src/contrib/Descriptions/Rcmdr.html) 
hay website của tác giả của Remdr sau đây: http://socserv.socsci.mcmaster.ca/ 
jJfox/Misc/Rcmdr. Chú ý, Rcmdr vận hành tốt khi có những package sau đây 
trong máy: relimp, mul1tcomp, ìmtest, effects, car, và abind. Nếu 
chưa có những package này, bạn đọc nên tải chúng về máy. Tài liệu chỉ dẫn 
Remdr cũng có thể tải từ website hp://cran.R-projectorg/doc/packages/ 
Rcmdrpdf. 


Khi đã tải Remdr xuống và cài đặt vào máy tính, bạn đọc chỉ đơn giản 
lệnh: 1ibrary (Remdr), và một giao diện như dưới đây sẽ xuất hiện. Với 
phần “menu” (như File, Edit, Data, Statistics, Graphs, Mode1s, 
Distribution, Teo1, He1p) bạn đọc có thể tự mình khám phá cách vận 
hành của Rcmdr bằng chuột. 
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Về nội dung cuốn sách ở lấn xuất bản thứ nhất này, tác giả không có ý 
định bàn về những mô hình phân tích đa biến (multivariate analysis model) 
như phân tích yếu tố (factor analysis), phân tích tập hợp (cluster analysis), 
phân tích tương quan đa biến (correspondence analysis), phân tích phương 
sai đa biến (multivariate analysis of variance), v.v... vì đây là những phương 
pháp tương đối cao cấp, đòi hỏi người sử dụng phải thông thạo không những 
vể lí thuyết thống kê, mà còn phải hiểu rất rõ những phương pháp phân tích 
căn bản như trình bày trong sách này. Tuy nhiên, bạn đọc có nhu cẩu cho các 
phương pháp phân tích này cũng có thể tìm hiểu trong trang web của R để biết 
thêm các package chuyên dụng cho phân tích đa biến. 





RStudio 


Sau cùng, tôi muốn giới thiệu RStudio như là một add-on rất tốt cho R. 
Trong thực tế, RStudio là một phần mềm đứng riêng, hiểu theo nghĩa, khi 
khởi động RStudio thì không cấn khởi động R, và tất cả các hàm, các lệnh R. 
đều có thể thực hiện trong RStudio. 

'Về giao diện, RStudio có 4 cửa sổ chính: cửa sổ dành cho viết hàm, cửa sổ 
quản lí các biến và dataframe, cửa sổ kết quả, và cửa sổ để lưu trữ các biểu đổ 
(xem hình đưới đây). 
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RStudio có thể tải về (miễn phí) từ website đưới đây. Dĩ nhiên, đối với 
máy tính cá nhân, chúng ta chọn “Desktop”: 


http://www.rstudio.com/products/RStudio 


Tài liệu tham khảo. 


Hiện nay, thư viện sách về R còn tương đối khiêm tốn so với thư viện 
cho các phần mềm thương mại như SAS và SPSS. Tuy nhiên, trong 
thời đại tiến bộ phi thường về thông tin internet và toàn cầu hóa như 
hiện nay, sách in và sách xuất bản trên website không còn có những 
khác nhau bao xa. Phần lớn chỉ dẫn về cách sử dụng R có thể tìm thấy 
rải rác đây đó trên các website từ các trường đại học và website cá 
nhân trên khắp thế giới. Phần này chỉ liệt kê một số sách mà bạn đọc 
nếu cần tham khảo thêm có thể tìm đọc. Trong quá trình viết cuốn 
sách mà bạn đọc đang cầm trên tay, tác giả cũng tham khảo một số 
sách và trang web sẽ liệt kê sau đây với vài lời nhận xét cá nhân. 

Tài liệu tham khảo chính về R là bài báo của hai người sáng tạo ra R: 
Thaka R, Gentleman R. R: A language for data analysis and graphics. 
Journal oƒ Computational and Graphical Statistics 1996; 5:299-314. 
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Sách tham khảo về R 

®  “Data Analysisand Graphics Using R - An Example Approach” (Nhà 
xuất bản Cambridge University Press, 2003) của John Maindonald nay 
đã xuất bản lần thứ 2 với thêm một tác giả mới John Braun. Đây là 
cuốn sách rất có ích cho những ai muốn tìm hiểu và học về R. Năm. 
chương đấu của sách viết cho bạn đọc chưa từng biết về R, còn các 
chương sau thì viết cho các bạn đọc đã biết cách sử dụng R thành thạo. 


»- “Introductory Statistics With R” (Nhà xuất bản Springer, 2004) của. 
Peter Dalgaard là một cuốn sách loại căn bản cho R nhắm vào bạn đọc 
chưa biết gì về R. Sách tương đối ngắn (chỉ khoảng 200 trang) nhưng 
giá khá đấu 

» - “Linear Models with R” (Nhà xuất bản Chapman & Hall/CRC, 2004) của 
Julian Faraway. Sách hiện có thể tải xuống miễn phí từ internet tại website 
sau đây: http://www-statlsa.umich.edu/~faraway/book/pra.pdf hay http:// 
cran.r-project.org/doc/contrib/Faraway-PRA.pdf. Tài liệu dài 213 trang. 

5Ò “R Graphics (Computer Science and Data Analysis)” (Nhà xuất 
bản Chapman & Hall/CRC, 2005) của Paul Murrell. Đây là cuốn sách. 
chuyên về phân tích biểu đố bằng R. Sách có rất nhiều mã để bạn đọc 
có thể tự thiết kế các biểu đồ phúc tạp và... màu mè. 

+ “Modern Applied Statistics with S-Plus” (Nhà xuất bản Springer, 4* 
Edition, 2003) của W. N. Venables và B. D. Ripley được viết cho ngôn 
ngữ S-Plus nhưng tất cả các lệnh và mã trong sách này đều có thể áp 
dụng cho R mà không cấn thay đổi (S-Plus là tiến thân của R, nhưng 
§-Plus là một phấn mềm thương mại, còn R thì hoàn toàn miễn phí!). 
Có thể nói đây là cuốn sách tham khảo cho tất cả những ai muốn phát 
triển thêm về R. Hai tác giả cũng là những chuyên gia có thẩm quyền 
về ngôn ngữ R. Sách dành cho bạn đọc với trình độ cao về máy tính 
và thống kê học. - 


Các website quan trọng hay có ích về R Ị 


» _ Rất nhiều tài liệu tham khảo có thể tải từ website chính thức của R sau 
đây: http://cran.R-project.org/other-docs.html 


Trong đó có một số tài liệu quan trọng như “An Introduction to R” 
của W.N. Venables và B. D. Ripley. 


Địa chỉ internet: http://cran.r-project.org/doc/manuals/R-intro.pdf£. 
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Vài tài liệu hướng dẫn cách sử dụng R có thể tải (miễn phí) và tham 

khảo như sau: 

“R for Beginners” (57 trang) của Emmanuel Paradis. Tài liệu được 

soạn cho bạn đọc mới làm quen với R. 

Địa chỉ internet: http://cran.r-project.org/doc/contrib/Paradis-rdebuts _ 

en.pdf. 

“Using R for Data Analysis and Graphics: Introduction, Code and 

Commentary” (35 trang) của John Maindonald là một tóm lược các 

lệnh và hàm căn bản của R cho phân tích số liệu và biểu đồ. Chủ để 

của tài liệu này rất gần với cuốn sách mà bạn đang đọc. 

Địa chỉ internet: http://cran.r-project.org/doc/contrib/usingR.pdf 

“Statistical Analysis with R - a quick start” (46 trang) của Oleg. 

Nenadic và Walter Zucchini. Tài liệu hướng dẫn cách ứng dụng R cho 

phân tích thống kẻ và biểu đồ. 

Địa chỉ internet: http://www.statoek.wiso.uni-goettingen.de/mitarbeiter/ 
_ 9glfpublr_workshop pdf 





— "A Brief Guide to R for Beginners in Econometrics” (3l trang) của 


M. Arai. Tài liệu chủ yếu soạn cho giới phân tích thống kẻ kinh tế. 
Địa chỉ internet: http://people.su.se/~ma/R_intro 

“Notes on the use of R for psychology experiments and 
questionnaires” (39 trang) của Jonathan Baron và Yuelin Li. Web: 
http://www:psych.upenn.edu/~baron/rpsych/rpsych.html. Tài liệu 
được soạn cho giới nghiên cứu tâm lí học và xã hội học. Có ví dụ về 
log-linear model và một số mô hình phân tích phương sai trong tâm 
lí học. 

Địa chỉ internet: http://www.psych.upenn.edu/~baron/rpsych/rpsych.htm] 
§StatsRus gốm một sưu tập về các mẹo để sử dụng R hữu hiệu hơn (dài 
khoảng 80 trang). Địa chỉ internet: http://lark.cc.ukans.edu/pauljohn/R/ 
statsRus.html 

Một tài liệu “Hướng dẫn sử dụng R cho phân tích số liệu và biểu đổ” 
(khoảng 110 trang - thường xuyên cập nhật hóa) do chính tác giả viết 
bằng tiếng Việt. Thực chất là tóm lược một số chương chính của cuốn 
sách này. 
http://cran.r-project.org/doc/contrib/Intro_to_R_ Vietnamese.pdf 
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» _ Sau cùng, tôi muốn giới thiệu đến các bạn đọc loạt bài giảng video về 
R và phân tích dữ liệu trên youtube. Cho đến nay, số bài giảng đã lên 
đến 30, đi từ đơn giản giới thiệu R, cách đọc dữ liệu, đến phân tích 
hổi qui tuyến tính. Các bạn có thể tải toàn. ài giảng về máy tính để 
theo dõi cùng với cuốn sách này. Địa chỉ là: 





https://www.youtube.com/user/drnguyenvtuan/videos 
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một laboratory chuyên nghiên cứu về di truyền và dịch tế học loãng 

xương của Viện Nghiên cứu Y khoa Garvan (Australia). Ông còn 
là Giáo sư y khoa của Đại học New South Wales (Australia). Mới đây, tác 
giả được bổ nhiệm chức danh Giáo sư xuất sắc (Distinguished Professor) 
của Đại học Công nghệ Sydney (Australia). Ông là một nhà nghiên cứu 
nổi tiếng trên thế giới về loãng xương, và một trong những kết quả nghiên 
cứu của ông được phát triển thành một mô hình tiên lượng gãy xương 
“Garvan Fracture Risk Calculator” (www.fractureriskcalculatorcom) được 
các bác sĩ khắp thế giới sử dụng trong lâm sảng. Ở Việt Nam, tác giả là giám 
đốc chương trình nghiên cứu về cơ và xương tại Trường Đại học Tôn Đức 
"Thắng (bmr.tdt.edu.vn), và giáo sư thỉnh giảng của Trường Đại học Nguyễn. 
Tất Thành, Thành phố Hồ Chí Minh. 


Tác giả là tiến sĩ thống kê học và tiến sĩ y khoa. Ông là tác giả của trên 
200 công trình nghiên cứu khoa học được công bố trên nhiểu tập san nổi 
tiếng trên thế giới như Nafure, Science, Nature Genetics, JAMA, Lancet, New 
England Journal oƒ Medicine, v.v. Những nghiên cứu của tác giả có tác động 
lớn, với hơn 15000 trích dẫn, và chỉ số H của tác giả là 65. Tác giả còn là 
chuyên gia bình duyệt cho trên 20 tập san khoa học khắp thế giới, và duyệt 
đơn tài trợ nhiều cơ quan tài trợ của Mĩ, Âu châu, Á châu. 

Ở Việt Nam, tác giả đã từng giảng dạy về thống kê học, phương pháp 
nghiên cứu khoa học, và y học thực chứng ở Việt Nam trong suốt 15 năm qua 


T ác giả là một nhà nghiên cứu cao cấp (Principal Fellow) và đứng đầu 
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cho hơn một ngàn học viên trên khắp cả nước. Ông cũng đã xuất bản 12 cuốn. 
sách ở Việt Nam. Sách của ông viết về y khoa, giáo dục, khoa học và nghiên 
cứu khoa học. Tác giả từng nhận bằng khen của Bộ trưởng Bộ Ngoại giao Việt 
Nam năm 2004, giải thưởng “Vinh danh Nước Việt” năm 2005, Giải thưởng 
Sách Hay 2013 cho cuốn “Đi vào nghiên cứu khoa học” (Nhà xuất bản Tổng 
hợp Thành phố Hồ Chí Minh, 2012), một số giải thưởng của Ủy ban nhân dân 
Thành phố Hồ Chí Minh, Hội Y học Thành phố Hồ Chí Minh v.v.. 
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Lời nói đấu 


Giới thiệu ngôn ngữ R...............................-- 5-5 5= << ===z~~~=z~~==~=~===ez 9 
Nhập đữ liệu _.. 
Biên tập đữ liệu 
Dùng R cho các phép tính đơn giản và ma trận........................= === = 35 
Tính toán xác suất và mỏ phỏng (simulation) 
Kiểm định thống kê và kiểm định giả thuyết . 
Mãn phạm biếu 00:Đ0DE K——————m 
Phân tích dữ liệu bằng biểu đồ 
Phân tích thống kê mồ tả ..... 








.. Phân tích hối qui tuyến tính .......................--~ ===============z==zz~~~z 
. Phân tích phương sai (Analysis of variance). 
. Phân tích hồi qui logistic 

. Phân tích sống còn (event history hay survival analysis)..................... 261 
. Phân tích đa biến 
. Mô hình ảnh hưởng hỗn hợp (mixed-effects model) 
:;PHẩn HCH tổng hỚI cáo 002cc tap 16 ceozcc6 2n the ở 
. Phương pháp Bootstrap 
. Phương pháp Bayes.... 
. Hướng dẫn sử dụng WinBUGS.....................2 72227272272 2z7z7z~5-=z se 
. Thiết kế thí nghiệm (Design of experiments) 
- Ước tính cỡ mẫu _ 
. Phân tích số liệu đãy thời gian (Time Series Analysis) _ 
. Phụ lục 1: Hàm R dùng cho phân tích 
. Phụ lục 2: Thuật ngữ dùng trong sách. 
. Đôi lời bạt cùng bạn đọc (và tài liệu tham khảo). 
¡'VDHÀNG VỆ LẠC HA ca s22 <6 cx6L-s2Yec2xrtiL262- bac itvecei cdkdrEcei Siể 
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“Phân tích dữ liệu bằng các phương pháp thống kê học là một kĩ năng rất cần thiết 
cho tất cả các lĩnh vực khoa học và xã hội. Phân tích dữ liệu là một quy trình khám phá 
trong khoa học. Trong thời đại “big data” (dữ liệu lớn) phân tích dử liệu đang dần trở 
thành một khoa học: khoa học dữ liệu hay data science. Đây là một khoa học mới và 
đây hào hứng mà các bạn có thể "đấn thân”. Do đó, dù muốn hay không thì tất cả các 
nhà chuyên môn, nhà khoa học cần phải làm quen hay ít ra là có kiến thức về phương 
pháp và mô hình phân tích dữ liệu. 


Cuốn sách bạn đang cẩm trên tay là một nỗ lực nhằm giới thiệu các phương pháp 
phân tích và mô hình thống kê phổ biến. Các phương pháp và mô hình bao gốm hồi 
qui tuyến tính, hổi qui logistic, phân tích tổng hợp (meta-analysis), mô hình phân tích 
sống còn (survival analysis), phương pháp phân tích chuỗi dữ liệu theo thời gian (time 
serie daia), phương pháp Bayes, phương pháp boolstrap, v.v. Với một nội dung khá rộng 
như thế, cuốn sách này sẽ giúp ích cho các nhà nghiên cứu, giảng viên cao đẳng và đại học, 
sinh viên, hay bất cứ ai muốn học về thống kê và phương pháp phân tích dữ liệu. 


TN ôn ngữ được sử dụng trong sách là R. Có nhiều lí do R được chọn làm ngôn 
ngữ để thực hiện các phương pháp trên, kể cả sự miễn phí và năng lực khoa học. Không. 
giống như các phấn mềm thương mại khác đều tốn khá nhiều tiển, R hoàn toàn miễn 
phí. Bất cứ ai ở bất cứ nơi nào trên thế giới có truy cập mạng internet đều có thể tải R. 
về máy tính, tốn vài phút cài đặt, và bắt đầu sử dụng. Trước đây, chỉ có một thiểu số nhà 
nghiên cứu trên thế giới (chủ yếu là ở các nước tiên tiến) mới có điểu kiện sử dụng các 
phẩn mềm thống kê, nhưng từ ngày có R thì bất cứ ai trên thế giới cũng đều có điều 
kiện áp dụng những phương pháp phân tích tỉnh vi nhất và hiện đại nhất cho nghiên 
cứu khoa học và phân tích đữ liệu. Do đó, sự ra đời của R đã làm một cuộc cách mạng, 
thống kê ở qui mô toàn cầu. R còn “dân chủ hóa” việc tiếp cận các phương pháp phân 
tích dữ liệu tiên tiến nhất trên thế giới. 
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